論文の概要: Tandem Training for Language Models
- arxiv url: http://arxiv.org/abs/2510.13551v1
- Date: Wed, 15 Oct 2025 13:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.687282
- Title: Tandem Training for Language Models
- Title(参考訳): 言語モデルのためのタンデム訓練
- Authors: Robert West, Ashton Anderson, Ece Kamar, Eric Horvitz,
- Abstract要約: 我々は、より弱い協力者に対して理解できないソリューションをモデルに作り出す方法を開発した。
本稿では,凍結弱モデルから間欠的にランダムにトークンをサンプリングする言語モデルに対するタンデムトレーニングを提案する。
GSM8K数学推論タスクでは、タンデムトレーニングはモデルを確実にジャーゴンを放棄し、より弱いパートナーに言語を適用するように教える。
- 参考スコア(独自算出の注目度): 27.21963074798485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models continue to rapidly improve, we can expect their actions and reasoning to become difficult or impossible for weaker agents and humans to follow, undermining interpretability and oversight. With an eye on long-term futures, we pursue methods that encourage models to produce solutions that remain intelligible to weaker collaborators. We formalize intelligibility as handoff robustness: a strong model's solution is intelligible to a weaker model if randomly handing off control to the weaker model along the solution path does not cause failure. Building on this criterion, we introduce tandem training for language models, a reinforcement learning (RL) paradigm in which rollout tokens are intermittently and randomly sampled from a frozen weak model rather than the strong model being trained. Because rollouts succeed only when the strong model's actions and reasoning process can be continued by the weak model -- when the two can co-construct a successful solution -- optimizing standard RL objectives with tandem training implicitly incentivizes both correctness and intelligibility. In the GSM8K math reasoning task, tandem training reliably teaches models to abandon jargon and adapt their language to weaker partners while keeping task accuracy high. Our results demonstrate a promising route to building AI systems that remain auditable by weaker agents, with implications for human--AI collaboration and multi-agent communication.
- Abstract(参考訳): 言語モデルは急速に改善され続けており、弱いエージェントや人間が従うことが困難または不可能になることを期待でき、解釈可能性や監視を損なう。
長期的な将来を見据えて、より弱い協力者には理解できないソリューションをモデルに作り出す方法を模索する。
強いモデルの解は、解道に沿って弱いモデルにランダムに制御を渡しても失敗を起こさない場合、より弱いモデルに対して知性を持つ。
この基準に基づいて,言語モデルのためのタンデム訓練,強化学習(RL)パラダイムを導入し,強力なモデルではなく,凍結弱モデルから間欠的にランダムにトークンをサンプリングする。
GSM8Kの数学推論タスクでは、タンデムトレーニングは、ジャーゴンを放棄し、タスクの精度を高く保ちながら、より弱いパートナーに言語を適応するようにモデルを確実に教える。我々の結果は、弱いエージェントによって監査可能なAIシステムを構築するための有望な道筋を示し、人間とAIのコラボレーションやマルチエージェントコミュニケーションに影響を及ぼす。
関連論文リスト
- Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization [0.6629765271909505]
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。
このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質に関する洞察も提供することを示唆している。
論文 参考訳(メタデータ) (2024-09-11T15:16:25Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。