論文の概要: Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement
- arxiv url: http://arxiv.org/abs/2506.03541v1
- Date: Wed, 04 Jun 2025 03:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.137351
- Title: Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement
- Title(参考訳): ディベート・リフレクション・ディスタンス:効率的な言語モデル拡張のための木構造優先最適化によるマルチエージェントフィードバック
- Authors: Xiaofeng Zhou, Heyan Huang, Lizi Liao,
- Abstract要約: 大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクにおいて、新しい標準を設定し続けている。
静的な知識蒸留、人間からのフィードバックからのリソース集約的な強化学習、あるいは限られた自己回帰のような現在の技術は、実質的で持続的なパフォーマンス向上をもたらす。
本稿では、より小さなモデルとより強力な教師モデルの間でのマルチターン議論を編成し、実用的なフィードバックを導き出す新しいリフレクション・アンド・ディベート(D&R)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.532921045069365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) continue to set new standards in knowledge-intensive and complex reasoning tasks, yet their high computational demands limit widespread adoption. While distilling large models into smaller ones offers a sustainable solution, current techniques--such as static knowledge distillation, resource-intensive reinforcement learning from human feedback, or limited self-reflection--struggle to yield substantial and lasting performance gains. In this paper, we present a novel Debate and Reflect (D&R) framework that orchestrates multi-turn debates between smaller models and stronger teacher models, eliciting actionable feedback (e.g., error analysis, corrective strategies) to guide student models. Further, we introduce Tree-structured Direct Preference Optimization (T-DPO) to efficiently leverage these debate logs, organizing interactions into a hierarchical format for effective training. Empirical evaluations across diverse NLP benchmarks demonstrate that our approach significantly improves smaller-model accuracy, robustness, and generalization, outperforming conventional baselines by a large margin.
- Abstract(参考訳): LLM(Large Language Models)は、知識集約的かつ複雑な推論タスクにおいて、新しい標準を定め続けているが、その高い計算要求は広く採用を制限している。
大規模なモデルをより小さなモデルに蒸留することは、持続可能なソリューションを提供する一方で、現在の技術 - 静的知識の蒸留、人間のフィードバックからのリソース集約的な強化学習、あるいは、実質的で持続的なパフォーマンス向上をもたらすための制限された自己回帰- などを提供する。
本稿では,より小規模なモデルとより強力な教師モデルの間でのマルチターン議論を編成し,学生モデルをガイドする実行可能なフィードバック(例えば,エラー解析,修正戦略)を提示する,D&R(Debate and Reflect)フレームワークを提案する。
さらに、これらの議論ログを効率的に活用し、効果的なトレーニングのために相互作用を階層的な形式に整理するために、Tree-structured Direct Preference Optimization (T-DPO)を導入する。
多様なNLPベンチマークによる実証評価により,本手法はモデル精度,ロバスト性,一般化を著しく改善し,従来のベースラインを大きなマージンで上回る結果となった。
関連論文リスト
- Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z) - Debate-Feedback: A Multi-Agent Framework for Efficient Legal Judgment Prediction [7.196065223124077]
本稿では,Debate-Feedbackアーキテクチャに基づく新たな法的判断予測モデルを提案する。
従来の手法とは異なり、我々のモデルは大規模な歴史的データセットの必要性を最小限に抑え、効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-04-07T09:34:14Z) - Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking [21.23826888841565]
本稿では、推論集約型文書ランキングのための小言語モデルをトレーニングするための新しいアプローチを提案する。
我々は Web データと教師 LLM を用いて,関連性の説明付き高品質な学習例を自動生成する。
私たちのモデルは、他のアプローチよりもはるかに少ないパラメータを使用しながら、リーダーボードで3位です。
論文 参考訳(メタデータ) (2025-04-04T21:27:48Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。