論文の概要: Removing Sandbagging in LLMs by Training with Weak Supervision
- arxiv url: http://arxiv.org/abs/2604.22082v1
- Date: Thu, 23 Apr 2026 21:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.272533
- Title: Removing Sandbagging in LLMs by Training with Weak Supervision
- Title(参考訳): 弱視下トレーニングによるLDMのサンドバッグ除去
- Authors: Emil Ryd, Henning Bartsch, Julian Stastny, Joe Benton, Vivek Hebbar,
- Abstract要約: 信頼性のある検証なしに、モデルのベストな仕事を引き出すことができるか?
教師用微調整(SFT)と強化学習(RL)を組み合わせると,弱い監督によるトレーニングが確実にサンドバッグモデルを引き出すことができることがわかった。
- 参考スコア(独自算出の注目度): 2.522724840981509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems begin to automate complex tasks, supervision increasingly relies on weaker models or limited human oversight that cannot fully verify output quality. A model more capable than its supervisors could exploit this gap through sandbagging, producing work that appears acceptable but falls short of its true abilities. Can training elicit a model's best work even without reliable verification? We study this using model organisms trained to sandbag, testing elicitation techniques on problem-solving math, graduate-level science, and competitive coding tasks. We find that training with weak supervision can reliably elicit sandbagging models when supervised fine-tuning (SFT) and reinforcement learning (RL) are combined: SFT on weak demonstrations breaks the sandbagging behavior, enabling RL to then fully elicit performance. Neither method succeeds reliably alone-RL without SFT almost always leads to reward hacking rather than genuine improvement. Critically, this relies on training being indistinguishable from deployment; when models can distinguish between training and deployment, they can perform well during training while continuing to sandbag afterward. Our results provide initial evidence that training is a viable mitigation against sandbagging, while highlighting the importance of making training indistinguishable from deployment.
- Abstract(参考訳): AIシステムが複雑なタスクを自動化し始めると、監督は出力品質を完全に検証できない弱いモデルや限定的な人間の監視にますます依存するようになる。
スーパーバイザーよりも優れたモデルは、サンドバッグでこのギャップを活用でき、許容できるように見えるが、真の能力に欠ける作業を生み出す。
信頼性のある検証なしに、モデルのベストな仕事を引き出すことができるか?
本研究では,サンドバッグに習熟したモデル生物を用いてこれを研究し,問題解決数学,大学院レベルの科学,競争力のあるコーディングタスクにおけるエレキュベーション手法を検証した。
教師付き微調整(SFT)と強化学習(RL)を組み合わせると、弱い監督によるトレーニングがサンドバッグングモデルに確実に適用可能であることが判明した。
SFTがなければ、どちらの方法も確実に成功しない。
モデルがトレーニングとデプロイメントを区別できる場合、トレーニング中にサンドバッグを継続しながらうまく機能する。
以上の結果から,トレーニングがサンドバッグ化対策として有効であることを示すと同時に,トレーニングを展開と区別できないものにすることの重要性を強調した。
関連論文リスト
- RefineRL: Advancing Competitive Programming with Self-Refinement Reinforcement Learning [63.432969627395686]
RefineRLは、競合するプログラミング問題に対して、大規模言語モデルの自己精製能力を解き放つために設計された新しいアプローチである。
Skeptical-Agentは、CP問題の公開テストケースに対して生成されたソリューションを検証するためのローカル実行ツールを備えた反復的な自己修復エージェントである。
強化学習ソリューションは、標準RLVRデータのみを用いてLLMを自己精製にインセンティブを与える。
論文 参考訳(メタデータ) (2026-04-01T11:54:57Z) - PRISM: A Unified Framework for Post-Training LLMs Without Verifiable Rewards [16.15363954575401]
大規模言語モデルの訓練後の現在の技術は、費用のかかる人事監督や外部検証に頼っている。
PRISMは、プロセス・リワード・モデル(Process Reward Model, PRM)を用いて、モデルの内部信頼度とともに学習をガイドする統合トレーニングフレームワークである。
PRMと自己確実性を効果的に組み合わせることで,安定したトレーニングとテスト時間性能の両立が期待できることを示す。
論文 参考訳(メタデータ) (2026-01-08T08:09:29Z) - On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models [73.10315509190623]
最近の強化学習技術は、言語モデルにおいて顕著な推論改善をもたらした。
ポストトレーニングが、事前トレーニング中に取得したものを超えて、モデルの推論能力を真に拡張するかどうかは不明だ。
プレトレーニング,ミッドトレーニング,およびRLベースのポストトレーニングの因果的貢献を分離する,完全に制御された実験フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T18:12:10Z) - Mirage or Method? How Model-Task Alignment Induces Divergent RL Conclusions [22.83151273022573]
反直感現象は、大きな言語モデル(LLM)で報告されている
RL観測を区別する重要な要因を同定する。事前学習されたモデルが既に強力なModel-Taskアライメントを示すかどうか。
この結果から, 標準RLトレーニングは, セッティング全体にわたって一貫して頑健でありながら, モデルとタスクがすでに強いモデルとタスクのアライメントを示す場合にのみ, 直感的な結果が生じることが示唆された。
論文 参考訳(メタデータ) (2025-08-28T20:02:10Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。
実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。
この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。