Fugu-MT 論文翻訳(概要): Scalable Multi-Task Low-Rank Model Adaptation

論文の概要: Scalable Multi-Task Low-Rank Model Adaptation

arxiv url: http://arxiv.org/abs/2603.01526v1
Date: Mon, 02 Mar 2026 06:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.725326
Title: Scalable Multi-Task Low-Rank Model Adaptation
Title（参考訳）: スケーラブルマルチタスク低ランクモデル適応
Authors: Zichen Tian, Antoine Ledent, Qianru Sun,
Abstract要約: マルチタスク低ランク適応(LoRA)を多数のタスクに拡張すると、破滅的なパフォーマンス劣化を引き起こす。規則化や動的ルーティングのような既存のソリューションは、基本的なトレードオフによって制約されるため、スケールで失敗するのです。 3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。
参考スコア（独自算出の注目度）: 43.22544779625565
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling multi-task low-rank adaptation (LoRA) to a large number of tasks induces catastrophic performance degradation, such as an accuracy drop from 88.2% to 2.0% on DOTA when scaling from 5 to 15 tasks. This failure is due to parameter and representation misalignment. We find that existing solutions, like regularization and dynamic routing, fail at scale because they are constrained by a fundamental trade-off: strengthening regularization to reduce inter-task conflict inadvertently suppresses the essential feature discrimination required for effective routing. In this work, we identify two root causes for this trade-off. First, uniform regularization disrupts inter-task knowledge sharing: shared underlying knowledge concentrates in high-SV components (89% alignment on Flanv2->BBH). Uniform regularization forces high-SV components to update in orthogonal directions, directly disrupting the shared knowledge. Second, Conflict Amplification: Applying LoRA at the component-level (e.g., W_q, W_v) amplifies gradient conflicts; we show block-level adaptation reduces this conflict by 76% with only 50% parameters. Based on these insights, we propose mtLoRA, a scalable solution with three novel designs: 1) Spectral-Aware Regularization to selectively orthogonalize low-SV components while preserving high-SV shared knowledge, 2) Block-Level Adaptation to mitigate conflict amplification and largely improve parameter efficiency, and 3) Fine-Grained Routing using dimension-specific weights for superior expressive power. On four large-scale (15-25 tasks) vision (DOTA and iNat2018) and NLP (Dolly-15k and BBH) benchmarks, mtLoRA achieves 91.7%, 81.5%, 44.5% and 38.5% accuracy on DOTA, iNat2018, Dolly-15k and BBH respectively, outperforming the state-of-the-art by 2.3% on average while using 47% fewer parameters and 24% less training time.
Abstract（参考訳）: マルチタスクのローランク適応(LoRA)を多数のタスクにスケールすると、精度が88.2%から2.0%に低下するなど、壊滅的なパフォーマンス劣化が引き起こされる。この失敗はパラメータと表現のミスアライメントによるものです。従来のソリューション,例えば正規化や動的ルーティングは,基本的なトレードオフによって制約されているため,スケールで失敗することがわかった。本研究では,このトレードオフの根本原因を2つ同定する。まず、均一な正規化はタスク間の知識共有を阻害する:共有される知識は高いSVコンポーネント(Flanv2->BBHに89%のアライメント)に集中する。統一正規化は、高SVコンポーネントに直交方向の更新を強制し、共有知識を直接破壊する。第2に、競合増幅:コンポーネントレベル(例えば、W_q、W_v)でLoRAを適用すると、勾配の衝突が増幅される。これらの知見に基づいて、3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。 1) 高SV共有知識を維持しつつ、低SV成分を選択的に直交するスペクトル認識規則化。 2【対立増幅を緩和し、パラメータ効率を大幅に改善するブロックレベル適応】 3)表現力に優れた次元比重を用いたファイングラインドルーティング。 4つの大規模(15-25タスク)ビジョン(DOTAとiNat2018)とNLP(Dolly-15kとBBH)ベンチマークでは、mtLoRAは91.7%、81.5%、44.5%、38.5%の精度をDOTA、iNat2018、Dolly-15k、BBHで達成し、それぞれ47%のパラメータと24%のトレーニング時間を使用しながら平均2.3%上回った。

関連論文リスト

D2-LoRA: A Synergistic Approach to Differential and Directional Low-Rank Adaptation [0.24636535146231608]
D2-LoRAは8つの質問応答と読解ベンチマークで76.4%の平均精度を達成した。この方法は、符号付き低ランク残差更新と追加的および減算的コンポーネント、および列車時列ワイドプロジェクションを組み合わせたものである。
論文参考訳（メタデータ） (2026-02-16T13:19:42Z)
Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文参考訳（メタデータ） (2026-01-30T10:54:51Z)
Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。 GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文参考訳（メタデータ） (2026-01-12T20:33:39Z)
Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文参考訳（メタデータ） (2025-12-09T06:52:21Z)
DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。 WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文参考訳（メタデータ） (2025-11-19T12:38:43Z)
Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。 TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文参考訳（メタデータ） (2025-10-02T02:00:20Z)
Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models? [0.0]
Generalized Edge Model (GEM) は、堅牢性と一般化を調和的にバランスさせることを目的としている。 GEMはSparse Cross-Attention Router (SCAR) を使用して、可変数のコンピューティングリソースに動的に割り当てる。 GPT-4 Liteと比較して、GEMはドメイン固有のパフォーマンスの尊重と同等性に対して、一般タスクレベルを7%向上させる。
論文参考訳（メタデータ） (2025-03-16T18:30:26Z)
ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。本稿では,ERNIE-Sparseというモデルを提案する。 i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文参考訳（メタデータ） (2022-03-23T08:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。