Fugu-MT 論文翻訳(概要): On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion

論文の概要: On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion

arxiv url: http://arxiv.org/abs/2406.15480v1
Date: Mon, 17 Jun 2024 03:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 06:51:29.421684
Title: On Giant's Shoulders: Effortless Weak to Strong by Dynamic Logits Fusion
Title（参考訳）: ジャイアントの肩について:ダイナミック・ロジット・フュージョンによる不運な弱み
Authors: Chenghao Fan, Zhenyi Lu, Wei Wei, Jie Tian, Xiaoye Qu, Dangyang Chen, Yu Cheng,
Abstract要約: 既存の弱強法では、静的な知識伝達比と、複雑な知識を伝達するための単一の小さなモデルを用いることが多い。本稿では,複数のタスク固有小モデルに対して,それぞれ異なるタスクに特化して動作する動的ロジット融合手法を提案する。本手法では,シングルタスクシナリオでは96.4%,マルチタスクシナリオでは86.3%のパフォーマンスギャップを埋める。
参考スコア（独自算出の注目度）: 23.63688816017186
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Efficient fine-tuning of large language models for task-specific applications is imperative, yet the vast number of parameters in these models makes their training increasingly challenging. Despite numerous proposals for effective methods, a substantial memory overhead remains for gradient computations during updates. \thm{Can we fine-tune a series of task-specific small models and transfer their knowledge directly to a much larger model without additional training?} In this paper, we explore weak-to-strong specialization using logit arithmetic, facilitating a direct answer to this question. Existing weak-to-strong methods often employ a static knowledge transfer ratio and a single small model for transferring complex knowledge, which leads to suboptimal performance. % To address this, To surmount these limitations, we propose a dynamic logit fusion approach that works with a series of task-specific small models, each specialized in a different task. This method adaptively allocates weights among these models at each decoding step, learning the weights through Kullback-Leibler divergence constrained optimization problems. We conduct extensive experiments across various benchmarks in both single-task and multi-task settings, achieving leading results. By transferring expertise from the 7B model to the 13B model, our method closes the performance gap by 96.4\% in single-task scenarios and by 86.3\% in multi-task scenarios compared to full fine-tuning of the 13B model. Notably, we achieve surpassing performance on unseen tasks. Moreover, we further demonstrate that our method can effortlessly integrate in-context learning for single tasks and task arithmetic for multi-task scenarios. (Our implementation is available in https://github.com/Facico/Dynamic-Logit-Fusion.)
Abstract（参考訳）: タスク固有のアプリケーションのための大規模言語モデルの効率的な微調整は必須であるが、これらのモデルの膨大なパラメータは、そのトレーニングをますます困難にしている。効果的な方法に関する多くの提案にもかかわらず、更新時の勾配計算にはかなりのメモリオーバーヘッドが残っている。一連のタスク固有の小さなモデルを微調整し、その知識を追加のトレーニングなしでもっと大きなモデルに直接転送するのでしょうか? 本稿では,ロジット算術を用いた弱い対強の特殊化について検討し,この問題への直接的な回答を容易にする。既存の弱強法では、静的な知識伝達比と1つの小さなモデルを用いて複雑な知識を伝達し、最適以下の性能をもたらす。 % この問題に対処するため、これらの制限を克服するため、我々は、異なるタスクに特化して、一連のタスク固有の小さなモデルで動作する動的ロジット融合アプローチを提案する。この方法は、各復号ステップでこれらのモデル間の重みを適応的に割り当て、Kullback-Leibler分散制約最適化問題を通して重みを学習する。我々は、シングルタスクとマルチタスクの両方の設定において、様々なベンチマークで広範な実験を行い、主要な結果を得た。本手法は、7Bモデルから13Bモデルに専門知識を移すことにより、シングルタスクシナリオでは96.4\%、マルチタスクシナリオでは86.3\%の性能ギャップを、13Bモデルの完全な微調整と比較して埋める。特に、目に見えないタスクでパフォーマンスを上回ります。さらに,本手法は,単一タスクに対する文脈内学習とマルチタスクシナリオに対するタスク算術とをシームレスに統合できることを実証する。実装はhttps://github.com/Facico/Dynamic-Logit-Fusion.comで公開しています。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文参考訳（メタデータ） (2024-02-01T08:58:57Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Scalarization for Multi-Task and Multi-Domain Learning at Scale [15.545810422759295]
複数の入力ドメインと/または出力タスクで単一のモデルをトレーニングすることで、複数のソースからの情報を統一されたバックボーンに圧縮することができる。しかし、これらのネットワークの最適化は、異なるタスクやドメイン間の相違による課題である。
論文参考訳（メタデータ） (2023-10-13T07:31:04Z)
Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文参考訳（メタデータ） (2023-08-23T16:42:27Z)
An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文参考訳（メタデータ） (2022-05-25T13:10:47Z)
Sparsely Activated Mixture-of-Experts are Robust Multi-Task Learners [67.5865966762559]
本研究では,Mixture-of-Experts (MoE) がマルチタスク学習を改善するかを検討した。タスク認識ゲーティング関数を考案し、異なるタスクから専門の専門家にサンプルをルーティングする。これにより、多数のパラメータを持つ疎活性化マルチタスクモデルが得られるが、高密度モデルの計算コストは同じである。
論文参考訳（メタデータ） (2022-04-16T00:56:12Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文参考訳（メタデータ） (2022-03-28T17:56:40Z)
XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文参考訳（メタデータ） (2021-06-08T17:49:33Z)
Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-09-19T02:04:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。