論文の概要: MAGDi: Structured Distillation of Multi-Agent Interaction Graphs
Improves Reasoning in Smaller Language Models
- arxiv url: http://arxiv.org/abs/2402.01620v1
- Date: Fri, 2 Feb 2024 18:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 13:49:33.054190
- Title: MAGDi: Structured Distillation of Multi-Agent Interaction Graphs
Improves Reasoning in Smaller Language Models
- Title(参考訳): MAGDi:小型言語モデルの推論を改善するマルチエージェント相互作用グラフの構造的蒸留
- Authors: Justin Chih-Yao Chen, Swarnadeep Saha, Elias Stengel-Eskin, Mohit
Bansal
- Abstract要約: 我々は,複数言語モデル (LLM) エージェント間の推論相互作用をより小さなLMに構造化した新しい蒸留法であるMAGDiを紹介する。
7つの広く使われているコモンセンスと数学推論ベンチマークの実験は、MAGDiがより小さなモデルの推論能力を改善することを示している。
- 参考スコア(独自算出の注目度): 67.1618494080025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent interactions between Large Language Model (LLM) agents have shown
major improvements on diverse reasoning tasks. However, these involve long
generations from multiple models across several rounds, making them expensive.
Moreover, these multi-agent approaches fail to provide a final, single model
for efficient inference. To address this, we introduce MAGDi, a new method for
structured distillation of the reasoning interactions between multiple LLMs
into smaller LMs. MAGDi teaches smaller models by representing multi-agent
interactions as graphs, augmenting a base student model with a graph encoder,
and distilling knowledge using three objective functions: next-token
prediction, a contrastive loss between correct and incorrect reasoning, and a
graph-based objective to model the interaction structure. Experiments on seven
widely-used commonsense and math reasoning benchmarks show that MAGDi improves
the reasoning capabilities of smaller models, outperforming several methods
that distill from a single teacher and multiple teachers. Moreover, MAGDi also
demonstrates an order of magnitude higher efficiency over its teachers. We
conduct extensive analyses to show that MAGDi (1) enhances the generalizability
to out-of-domain tasks, (2) scales positively with the size and strength of the
base student model, and (3) obtains larger improvements (via our multi-teacher
training) when applying self-consistency - an inference technique that relies
on model diversity.
- Abstract(参考訳): 大規模言語モデル(llm)エージェント間のマルチエージェントインタラクションは、さまざまな推論タスクにおいて大きな改善を示している。
しかし、これらには複数のモデルから複数のラウンドにわたる長い世代があり、費用がかかる。
さらに、これらのマルチエージェントアプローチは、効率的な推論のために最終的な単一モデルを提供しない。
そこで我々は,複数のLDM間の推論相互作用をより小さなLMに構造化した新しい蒸留法MAGDiを紹介する。
magdiは、グラフとしてマルチエージェントインタラクションを表現し、グラフエンコーダでベース学生モデルを強化し、次の予測、正しい推論と間違った推論の対比的損失、相互作用構造をモデル化するためのグラフベースの目的という3つの目的関数を使って知識を蒸留することで、より小さなモデルを教える。
広く使われている7つのコモンセンスと数学推論ベンチマークの実験は、magdiが小さなモデルの推論能力を改善し、単一の教師と複数の教師から蒸留するいくつかの方法よりも優れていることを示している。
さらにmagdiは、教師よりも効率が桁違いに高いことも示している。
我々は,magdiがドメイン外タスクの一般化性を高めること,(2)学生モデルのサイズと強度に正のスケールでスケールすること,(3)自己一貫性を適用した場合に(マルチテアトレーニングを通じて)より大きな改善(モデル多様性に依存する推論技術)を得ること,など,広範な分析を行う。
関連論文リスト
- Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Unlock the Power: Competitive Distillation for Multi-Modal Large
Language Models [17.25135606956287]
競合型マルチモーダル蒸留フレームワーク(CoMD)は,教師モデルと学生モデル間の双方向フィードバックをキャプチャする。
多様なデータセットを実験的に分析した結果,我々の知識伝達手法は学生モデルの性能を継続的に改善することがわかった。
論文 参考訳(メタデータ) (2023-11-14T14:49:46Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Module-wise Adaptive Distillation for Multimodality Foundation Models [125.42414892566843]
マルチモーダル・ファンデーション・モデルは 目覚ましい 一般化性を示したが 規模が大きいため 展開に挑戦する
規模を減らすための効果的なアプローチの1つは層単位での蒸留であり、小さな学生モデルは各層で大きな教師モデルの隠された表現と一致するように訓練される。
そこで本研究では, 各モジュールの蒸留後の損失デクリメントを記録し, より頻繁な蒸留に寄与するモジュールを選択することによって, 個々のモジュールの寄与をトラックすることを提案する。
論文 参考訳(メタデータ) (2023-10-06T19:24:00Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - MMKGR: Multi-hop Multi-modal Knowledge Graph Reasoning [40.60328470622483]
MMKGR(Multi-hop Multi-modal Knowledge Graph Reasoning)という新しいモデルを提案する。
本モデルは,(1)十分な注意相互作用と雑音低減により効果的なマルチモーダル補間特徴を生成するために設計された統合ゲートアテンションネットワーク,(2)マルチホップ推論プロセスによって欠落要素を予測するために提案される補間特徴認識強化学習法を含む。
実験の結果,MMKGRはMKG推論タスクにおける最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-09-03T13:07:02Z) - Online Knowledge Distillation via Multi-branch Diversity Enhancement [15.523646047674717]
複数の学生モデル間の多様性を高めるため,新しい蒸留法を提案する。
ネットワークにおけるアテンション機構の性能を向上させる機能融合モジュール(FFM)を用いる。
また,学生モデルの違いを強化するために,多変量化(CD)損失関数を用いた。
論文 参考訳(メタデータ) (2020-10-02T05:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。