論文の概要: It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation
- arxiv url: http://arxiv.org/abs/2503.02463v1
- Date: Tue, 04 Mar 2025 10:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:59.671766
- Title: It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation
- Title(参考訳): より小さなLSMに、選択的なRationale最適化を通じて相互に検討するように教えること。
- Authors: Sohan Patnaik, Milan Aggarwal, Sumit Bhatia, Balaji Krishnamurthy,
- Abstract要約: COALITIONは、同じSLMの2つの変種間の相互作用を容易にするトレーニング可能なフレームワークである。
エンドタスクに最適化された合理性を生成するように訓練する。
我々のアブレーション研究は、2つの変種間の相互通信が、理論を自己定義するために単一のモデルを使用するよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 20.784944581469205
- License:
- Abstract: Very large language models (LLMs) such as GPT-4 have shown the ability to handle complex tasks by generating and self-refining step-by-step rationales. Smaller language models (SLMs), typically with < 13B parameters, have been improved by using the data generated from very-large LMs through knowledge distillation. However, various practical constraints such as API costs, copyright, legal and ethical policies restrict using large (often opaque) models to train smaller models for commercial use. Limited success has been achieved at improving the ability of an SLM to explore the space of possible rationales and evaluate them by itself through self-deliberation. To address this, we propose COALITION, a trainable framework that facilitates interaction between two variants of the same SLM and trains them to generate and refine rationales optimized for the end-task. The variants exhibit different behaviors to produce a set of diverse candidate rationales during the generation and refinement steps. The model is then trained via Selective Rationale Optimization (SRO) to prefer generating rationale candidates that maximize the likelihood of producing the ground-truth answer. During inference, COALITION employs a controller to select the suitable variant for generating and refining the rationales. On five different datasets covering mathematical problems, commonsense reasoning, and natural language inference, COALITION outperforms several baselines by up to 5%. Our ablation studies reveal that cross-communication between the two variants performs better than using the single model to self-refine the rationales. We also demonstrate the applicability of COALITION for LMs of varying scales (4B to 14B parameters) and model families (Mistral, Llama, Qwen, Phi). We release the code for this work at https://github.com/Sohanpatnaik106/coalition.
- Abstract(参考訳): GPT-4のような非常に大きな言語モデル(LLM)は、ステップバイステップの合理性を生成することによって複雑なタスクを処理する能力を示している。
より小さな言語モデル (SLM) は、知識蒸留を通じて非常に大きなLMから生成されたデータを用いて、通常 13B のパラメータで改善されている。
しかし、APIコスト、著作権、法的および倫理的なポリシーのような様々な実践的な制約は、商業利用のためにより小さなモデルを訓練するために大きな(しばしば不透明な)モデルを使用することを制限する。
限定的な成功は、SLMが可能な合理性の空間を探索し、自己検討を通じてそれ自身で評価する能力を改善することで達成されている。
そこで本研究では,同じSLMの2つの変種間の相互作用を容易にするトレーニング可能なフレームワークであるCOALITIONを提案する。
これらの変種は、生成と洗練の段階において、様々な候補の合理的なセットを生成するために異なる振る舞いを示す。
このモデルはSRO (Selective Rationale Optimization) を通じて訓練され、基本真実解を生成する確率を最大化する合理的な候補を生成することを好む。
推論中、COALITIONは、理性の生成と精製に適した変種を選択するためにコントローラを使用する。
数学的問題、常識推論、自然言語推論を含む5つの異なるデータセットにおいて、COALITIONはいくつかのベースラインを最大5%上回っている。
我々のアブレーション研究は、2つの変種間の相互通信が、理論を自己定義するために単一のモデルを使用するよりも優れていることを示した。
また,異なるスケール(4B〜14Bパラメータ)のLMに対するCOALITIONの適用性とモデルファミリー(Mistral,Llama,Qwen,Phi)の適用性を示した。
この作業のコードはhttps://github.com/Sohanpatnaik106/coalition.comで公開しています。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己制限を統合したセルフプレイフレームワークで、気を散らさずに有効かつ同等の選好ペアを得る。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Zero-shot Task Preference Addressing Enabled by Imprecise Bayesian
Continual Learning [19.11678487931003]
本稿では,タスクパフォーマンストレードオフの優先事項に対処するため,IBCL(Imrecise Bayesian Continual Learning)を提案する。
IBCLは、知識ベースから好み順応モデルを構築するために、追加のトレーニングオーバーヘッドを必要としない。
IBCLで得られたモデルには、好むパラメータを識別する保証があることが示されている。
論文 参考訳(メタデータ) (2023-05-24T06:39:00Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。