論文の概要: Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning
- arxiv url: http://arxiv.org/abs/2605.05676v1
- Date: Thu, 07 May 2026 05:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.523113
- Title: Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning
- Title(参考訳): 大規模言語モデルの基本能力の分解:マルチタスクインストラクションチューニングにおけるクロスタスク干渉の緩和
- Authors: Bing Wang, Ximing Li, Changchun Li, Jinjin Chi, Gang Niu, Masashi Sugiyama,
- Abstract要約: 大規模言語モデル(LLM)におけるマルチタスクインストラクトチューニングは、主にマルチタスクインストラクトチューニングによって駆動されている。
トレーニングパラダイムは、異なるタスク間で共有されたパラメータよりも勾配が矛盾するため、クロスタスク干渉と呼ばれる重要な問題に悩まされる。
本稿では,LLMパラメータを基本能力を表す高特異値LoRAエキスパートに分解するBADITを提案する。
6LLMのSuperNIベンチマークで広範な実験を行い、実験結果から、BADITはSOTA法より優れ、クロスタスク干渉の程度を緩和できることが示された。
- 参考スコア(独自算出の注目度): 58.90602461025722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the prominent performance of large language models (LLMs) has been largely driven by multi-task instruct-tuning. Unfortunately, this training paradigm suffers from a key issue, named cross-task interference, due to conflicting gradients over shared parameters among different tasks. Some previous methods mitigate this issue by isolating task-specific parameters, e.g., task-specific neuron selection and mixture-of-experts. In this paper, we empirically reveal that the cross-task interference still exists for the existing solutions because of many parameters also shared by different tasks, and accordingly, we propose a novel solution, namely Basic Abilities Decomposition for multi-task Instruct-Tuning (BADIT). Specifically, we empirically find that certain parameters are consistently co-activated, and that co-activated parameters naturally organize into base groups. This motivates us to analogize that LLMs encode several orthogonal basic abilities, and that any task can be represented as a linear combination of these abilities. Accordingly, we propose BADIT that decomposes LLM parameters into orthogonal high-singular-value LoRA experts representing basic abilities, and dynamically enforces their orthogonality during training via spherical clustering of rank-1 components. We conduct extensive experiments on the SuperNI benchmark with 6 LLMs, and empirical results demonstrate that BADIT can outperform SOTA methods and mitigate the degree of cross-task interference.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の顕著な性能は,マルチタスクインストラクションチューニングによって大きく向上している。
残念なことに、このトレーニングパラダイムは、タスク間の共有パラメータよりも勾配が矛盾するため、クロスタスク干渉と呼ばれる重要な問題に悩まされている。
従来の手法では、タスク固有のパラメータ、例えばタスク固有のニューロン選択とエキスパートの混合を分離することでこの問題を緩和していた。
本稿では,多くのパラメータが異なるタスクで共有されているため,既存のソリューションにクロスタスク干渉が存在することを実証的に明らかにし,マルチタスクインストラクション・チューニングのためのベーシック・アビリティ・デコンポジション(BADIT)という新しいソリューションを提案する。
具体的には、特定のパラメータが一貫してコアクティベートされ、コアクティベートされたパラメータが自然にベースグループにまとめられることを経験的に発見する。
このことは、LLMがいくつかの直交基本能力をエンコードし、任意のタスクがこれらの能力の線形結合として表現できることを類推する動機となっている。
そこで本研究では,LLMパラメータを基本能力を表す直交高特異値 LoRA 専門家に分解し,ランク1成分の球状クラスタリングによるトレーニング中にその直交性を動的に実施するBADITを提案する。
6LLMのSuperNIベンチマークで広範囲な実験を行い、実験結果から、BADITはSOTA法より優れ、クロスタスク干渉の程度を緩和できることが示された。
関連論文リスト
- Model Merging in the Essential Subspace [78.5390284258307]
モデルマージは、複数のタスク固有の細調整されたモデルを、追加のトレーニングなしで単一のマルチタスクモデルに統合することを目的としている。
広範囲の研究にもかかわらず、タスク干渉は依然として大きな障害であり、しばしば統合されたモデルの性能を損なう。
効率的なモデルマージのための堅牢なフレームワークであるESM(Essential Subspace Merging)を提案する。
論文 参考訳(メタデータ) (2026-02-23T00:33:38Z) - DPI: Exploiting Parameter Heterogeneity for Interference-Free Fine-Tuning [11.751530422766836]
Supervised Fine-tuning (SFT) は、大規模言語モデル(LLM)を下流タスクに適用するための重要なステップである。
本稿では,タスク固有のパラメータ領域をアンタングル化し分離する手法を提案する。
論文 参考訳(メタデータ) (2026-01-25T10:30:45Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - MoSLD: An Extremely Parameter-Efficient Mixture-of-Shared LoRAs for Multi-Task Learning [8.868481107848185]
MoSLDは、ドロップアウト戦略を備えた混合共有LoRAモデルである。
MoSLDは、LoRAの上部プロジェクションマトリックスをさまざまな専門家の間で共有することで、課題に対処する。
本モデルは,シングルタスクシナリオとマルチタスクシナリオの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T05:22:49Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Mitigating Task Interference in Multi-Task Learning via Explicit Task
Routing with Non-Learnable Primitives [19.90788777476128]
マルチタスク学習(MTL)は、タスク間の共有情報を活用することで、複数のタスクを達成するための単一のモデルを学ぶことを目指している。
既存のMLLモデルはタスク間の負の干渉に悩まされていることが知られている。
本研究では,非学習可能なプリミティブと明示的なタスクルーティングの相乗的組み合わせによるタスク干渉を軽減するためのETR-NLPを提案する。
論文 参考訳(メタデータ) (2023-08-03T22:34:16Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。