論文の概要: Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models
- arxiv url: http://arxiv.org/abs/2507.18858v2
- Date: Mon, 28 Jul 2025 01:08:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 12:09:50.634277
- Title: Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models
- Title(参考訳): 故障軌道を用いた弱-ストロング一般化:強モデルにおける最適解法への木に基づくアプローチ
- Authors: Ruimeng Ye, Zihan Wang, Yang Xiao, Zinan Ling, Manling Li, Bo Hui,
- Abstract要約: W2SG(Wak-to-Strong generalization)は、弱いモデルから監督された強いモデルの完全な能力を引き出す新しい傾向である。
我々は、弱いモデルによって生成された中間作用の軌跡を持つ強いモデルを微調整する。
我々の経験的評価は、多種多様なタスク領域にわたる推論と意思決定能力を大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 26.393123295267642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weak-to-Strong generalization (W2SG) is a new trend to elicit the full capabilities of a strong model with supervision from a weak model. While existing W2SG studies focus on simple tasks like binary classification, we extend this paradigm to complex interactive decision-making environments. Specifically, we fine-tune a strong model with trajectories of intermediate actions generated by a weak model. Motivated by the human learning process, we propose to generalize not only success knowledge but also failure experience so that the strong model can learn from failed trajectories accumulated by weak models. To effectively and efficiently elicit the potential of strong agents, we further construct ``trajectory trees," a hierarchical representation that organizes weak model-generated action trajectories, coupled with Monte Carlo Tree Search (MCTS) to optimize the strong model. Through theoretical analysis, we provide formal guarantees for the effectiveness of our method in improving W2SG performance. Our empirical evaluations demonstrate substantial improvements in reasoning and decision-making capabilities across diverse task domains, validating the scalability and robustness of our proposed framework.
- Abstract(参考訳): W2SG(Wak-to-Strong generalization)は、弱いモデルから監督された強いモデルの完全な能力を引き出す新しい傾向である。
既存のW2SG研究はバイナリ分類のような単純なタスクに重点を置いているが、我々はこのパラダイムを複雑な対話型意思決定環境にまで拡張する。
具体的には、弱いモデルによって生成された中間作用の軌跡を持つ強いモデルを微調整する。
人間の学習プロセスに動機づけられた本研究では、成功知識だけでなく失敗経験も一般化し、弱いモデルによって蓄積された失敗した軌道から強力なモデルを学習できるようにすることを提案する。
さらに, モンテカルロ木探索(MCTS)と組み合わせて, モデル生成の弱い行動軌跡を整理する階層的表現である「トラジェクトリツリー」を構築し, 強エージェントのポテンシャルを効果的に抽出する。
理論的解析により,W2SGの性能向上における提案手法の有効性を正式に保証する。
我々の経験的評価は、様々なタスク領域にわたる推論と意思決定能力を大幅に改善し、提案したフレームワークのスケーラビリティと堅牢性を検証した。
関連論文リスト
- Relating Misfit to Gain in Weak-to-Strong Generalization Beyond the Squared Loss [4.4505368723466585]
強クラスにおける$k$強モデルの凸結合に対する弱強一般化について検討する。
同様の不適合性に基づく性能向上のキャラクタリゼーションが得られ、$k$が大きくなると消滅する追加のエラー項が現れる。
論文 参考訳(メタデータ) (2025-01-31T12:57:58Z) - Debate Helps Weak-to-Strong Generalization [68.70065254564642]
我々は,強い事前訓練モデルを用いて人間の監督を改善する方法について検討し,弱い人間の監督を増強した強いモデルを監督する。
議論は、信頼できない強力なモデルから信頼できる情報を抽出する弱いモデルを支援することができる。
OpenAIの弱いNLPベンチマークの実験では、組み合わせアプローチがアライメントを改善することが示されている。
論文 参考訳(メタデータ) (2025-01-21T05:36:13Z) - Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - Bayesian WeakS-to-Strong from Text Classification to Generation [14.897191979004782]
この研究は、人間の意見の多様性をシミュレートする弱いモデルのアンサンブルを探索することで、Weak-to-StrongからWeakS-to-Strongに拡張する。
信頼性スコアは、WeakS-to-Strong一般化を導くベイズ的アプローチを用いて推定される。
その結果,提案手法の有効性を学生モデルの信頼性に示し,スーパーアライメントの可能性を示した。
論文 参考訳(メタデータ) (2024-05-24T13:33:11Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。