論文の概要: Imperfect World Models are Exploitable
- arxiv url: http://arxiv.org/abs/2605.15960v2
- Date: Mon, 18 May 2026 10:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.194465
- Title: Imperfect World Models are Exploitable
- Title(参考訳): 不完全な世界モデルは爆発的です
- Authors: Logan Mondal Bhamidipaty, Esmeralda S. Whitammer, David Abel, Mykel J. Kochenderfer, Subramanian Ramamoorthy,
- Abstract要約: 強化学習におけるモデル活用の新たな定義を提案する。
我々の定義は、報酬ハッキングの先行的な特徴と類似しているが、それに伴う不可避性の証明は、搾取に移行しないことを示す。
我々の結果は、報酬ハッキングとモデルエクスプロイトの間の正式な橋渡しを確立し、世界モデルにおける安全な計画の限界を解明する。
- 参考スコア(独自算出の注目度): 33.840659652104115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel definition of model exploitation in reinforcement learning. Informally, a world model is exploitable if it implies that one policy should be strictly preferred over another while the environment's true transition model implies the reverse. We analogize our definition with a prior characterization of reward hacking but show that the associated proof of inevitability does not transfer to exploitation. To overcome this obstruction, we develop a general theory of reward hacking and model exploitation that proves that exploitation is essentially unavoidable on large policy sets and yields the corresponding claim for hacking as a special case. Unfortunately, we also find that the conditions that guarantee unhackability in finite policy sets have no counterpart that precludes exploitation. Consequently, we introduce a relaxed notion of exploitation and derive a safe horizon within which it can be avoided. Taken together, our results establish a formal bridge between reward hacking and model exploitation and elucidate the limits of safe planning in world models.
- Abstract(参考訳): 強化学習におけるモデル活用の新たな定義を提案する。
世界モデルは、環境の真の遷移モデルが逆を意味するのに対して、あるポリシーが他のポリシーよりも厳格に優先されるべきであることを意味している場合、利用することができる。
我々の定義は、報酬ハッキングの先行的な特徴と類似しているが、それに伴う不可避性の証明は、搾取に移行しないことを示す。
この障害を克服するために、我々は報酬ハッキングとモデルエクスプロイトの一般的な理論を開発し、大規模なポリシーセットでは本質的に回避できないことを示し、特別なケースとして対応するハッキングのクレームを得る。
残念なことに、有限ポリシー集合における非ハック性を保証する条件には、搾取を妨げるような条件がないこともわかっています。
その結果, 緩和された利用の概念を導入し, 回避可能な安全な地平線を導出する。
その結果,報酬ハッキングとモデルエクスプロイトの間に正式な橋渡しを行い,世界モデルにおける安全な計画の限界を解明した。
関連論文リスト
- Conformal Policy Control [50.46542384484142]
我々は、安全な参照ポリシーを、最適化されているが未試験のポリシーの確率的規制として使う方法を示す。
保守的な最適化方法とは異なり、ユーザーが正しいモデルクラスを識別したとは仮定しない。
自然言語質問応答から生体分子工学まで,本研究の応用実験は,デプロイ開始当初から安全な探索が可能であることを示唆している。
論文 参考訳(メタデータ) (2026-03-02T18:54:36Z) - Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Eliciting Harmful Capabilities by Fine-Tuning On Safeguarded Outputs [8.50389237277747]
堅牢に保護されたモデルでさえ、オープンソースモデルで有害な機能を引き出すために使用することができる。
我々の研究は、アウトプットレベルのセーフガードによる生態系レベルのリスク軽減の課題を示しています。
論文 参考訳(メタデータ) (2026-01-20T02:24:44Z) - Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models [5.294604210205507]
Conformal Arbitrageは、データ駆動しきい値を学び、主目的のために最適化されたプライマリモデルとより保守的なGuardianの間を仲介するフレームワークです。
提案手法は,精度において,モデル間のランダムなルーティングに一致したコストで優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-01T08:55:10Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Stealthy Imitation: Reward-guided Environment-free Policy Stealing [45.66401695351214]
我々は、環境や入力範囲の知識にアクセスせずにポリシーを盗むように設計された最初の攻撃であるStealthy Imitationを提案する。
被害者の入力状態の分布にアクセスできないため、Stealthyはそれを近似できる報酬モデルに適合する。
攻撃クエリの分布が被害者のものと一致した場合, 被害者の方針を模倣することが困難であることを示す。
論文 参考訳(メタデータ) (2024-05-11T12:55:10Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Defining and Characterizing Reward Hacking [13.200343718893889]
期待されるプロキシリターンを増やすことで、期待される真のリターンを決して削減できないのであれば、プロキシはハック不可能である、と私たちは言います。
重要な洞察は、報酬の線形性は、不安定を非常に強い条件にするということである。
この結果から,報酬関数を用いて狭いタスクを指定し,AIシステムと人的価値の整合を図った。
論文 参考訳(メタデータ) (2022-09-27T00:32:44Z) - Learning under Invariable Bayesian Safety [36.96284975799963]
私たちは最近、レコメンデーションのために、バンディットのような設定に関する研究に触発されたモデルを採用しています。
各ラウンドで尊重すべき安全制約を導入し、各ラウンドの期待値が所定の閾値を超えることを判断する。
論文 参考訳(メタデータ) (2020-06-08T12:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。