論文の概要: Learning Together to Perform Better: Teaching Small-Scale LLMs to Collaborate via Preferential Rationale Tuning
- arxiv url: http://arxiv.org/abs/2506.02519v1
- Date: Tue, 03 Jun 2025 06:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.376672
- Title: Learning Together to Perform Better: Teaching Small-Scale LLMs to Collaborate via Preferential Rationale Tuning
- Title(参考訳): より優れたパフォーマンスを実現するために一緒に学ぶ: 優先順位付け学習による小規模LLMの協調指導
- Authors: Sohan Patnaik, Milan Aggarwal, Sumit Bhatia, Balaji Krishnamurthy,
- Abstract要約: COLLATEは、(小さな)LLMをチューニングして、下流タスクを選択的に改善する多様な理性のプールから出力を生成するフレームワークである。
様々なパラメータスケール(1Bから8B)で異なるモデルファミリーのLCMに対してCOLLATEが有効であることを示すとともに、終了タスクによって導かれる複数の合理化プロバイダのメリットを示す。
- 参考スコア(独自算出の注目度): 20.784944581469205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLMssuch as GPT-4 have shown a remarkable ability to solve complex questions by generating step-by-step rationales. Prior works have utilized this capability to improve smaller and cheaper LMs (say, with 7B parameters). However, various practical constraints, such as copyright and legal issues, owing to lack of transparency in the pre-training data of large (often closed) models, prevent their use in commercial settings. Little focus has been given to improving the innate reasoning ability of smaller models without distilling information from larger LLMs. To address this, we propose COLLATE, a trainable framework that tunes a (small) LLM to generate those outputs from a pool of diverse rationales that selectively improves the downstream task. COLLATE enforces multiple instances of the same LLM to exhibit distinct behavior and employs them to generate rationales to obtain diverse outputs. The LLM is then tuned via preference optimization to choose the candidate rationale which maximizes the likelihood of ground-truth answer. COLLATE outperforms several trainable and prompting baselines on 5 datasets across 3 domains: maths problem solving, natural language inference, and commonsense reasoning. We show the eff icacy of COLLATE on LLMs from different model families across varying parameter scales (1B to 8B) and demonstrate the benefit of multiple rationale providers guided by the end task through ablations. Code is released here (https://github.com/Sohanpatnaik106/collate).
- Abstract(参考訳): GPT-4のようなLLMは、ステップバイステップの合理性を生成することで複雑な問題を解く素晴らしい能力を示している。
これまでの作業では、この機能を利用して、より小型で安価なLM(例えば、7Bパラメータ)を改善してきた。
しかし、大規模な(しばしばクローズドな)モデルの事前トレーニングデータに透明性が欠如しているため、著作権や法的問題などの様々な実践上の制約により、商用環境での使用が妨げられる。
より大型のLSMから情報を蒸留することなく、より小型のモデルの自然推論能力を改善することにはほとんど焦点が当てられていない。
そこで本研究では,(小さい)LCMをチューニングして,下流タスクを選択的に改善する多様な理性のプールから出力を生成する,トレーニング可能なフレームワークであるCOLLATEを提案する。
COLLATEは、異なる振る舞いを示すために同じLLMの複数のインスタンスを強制し、様々な出力を得るために合理性を生成する。
LLMは選好最適化によって調整され、基本真実解の確率を最大化する候補論理を選択する。
COLLATEは、数学の問題解決、自然言語の推論、コモンセンス推論という3つの領域にわたる5つのデータセットのトレーニングやプロンプトのベースラインを上回っている。
様々なパラメータスケール(1Bから8B)で異なるモデルファミリーのLCMに対してCOLLATEが有効であることを示すとともに、終了タスクによって導かれる複数の合理化プロバイダのメリットを示す。
コードはここでリリースされている(https://github.com/Sohanpatnaik106/collate)。
関連論文リスト
- It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation [20.784944581469205]
COALITIONは、同じSLMの2つの変種間の相互作用を容易にするトレーニング可能なフレームワークである。
エンドタスクに最適化された合理性を生成するように訓練する。
我々のアブレーション研究は、2つの変種間の相互通信が、理論を自己定義するために単一のモデルを使用するよりも優れていることを示した。
論文 参考訳(メタデータ) (2025-03-04T10:17:29Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。