論文の概要: From Reward-Hack Activations to Agentic Risk States: Context-Calibrated Mechanistic Monitoring in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.06223v1
- Date: Thu, 04 Jun 2026 14:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.856464
- Title: From Reward-Hack Activations to Agentic Risk States: Context-Calibrated Mechanistic Monitoring in LLM Agents
- Title(参考訳): リワードハックからエージェントリスク状態へ:LDMエージェントのコンテキストキャリブレーションによるメカニスティックモニタリング
- Authors: Patrick Wilhelm, Odej Kao,
- Abstract要約: 言語モデルエージェントは、観察、推論、行動選択を繰り返して行動する。
我々は,Gameable ALFWorld と WebShop で行動する ReAct スタイルエージェントの報酬ハッキングモニタについて検討した。
- 参考スコア(独自算出の注目度): 1.5268922363885409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-model agents act through repeated cycles of observation, reasoning, and action selection, making safety monitoring depend on both internal model state and environment context. We study reward-hacking monitors in ReAct-style agents acting in Gameable ALFWorld and WebShop. Agents are instrumented with activation-based reward-hack scores, token-level entropy, and decision-context features. We find that adapters fine-tuned on \textit{School-of-Reward-Hacks} dataset can transfer reward-hack tendencies into agentic action selection, especially when the environment exposes proxy-reward affordances. However, mitigating such behavior cannot rely on activation dynamics alone. High reward-hack activation identifies a latent policy state, but does not necessarily imply an immediate exploit action. Across next-step prediction tasks, entropy and context-calibrated internal features improve risk estimation over reward-hack activation alone. Activation-direction steering further reduces proxy-exploit behavior in selected mixed-adapter regimes. Overall, our results support context-calibrated internal monitoring for agents: reward-hack activation identifies a latent policy state, while entropy and decision context help determine when that state becomes risky action.
- Abstract(参考訳): 言語モデルエージェントは、観察、推論、行動選択を繰り返し、内部モデル状態と環境コンテキストの両方に依存する安全監視を行う。
我々は,Gameable ALFWorld と WebShop で行動する ReAct スタイルエージェントの報酬ハッキングモニタについて検討した。
エージェントはアクティベーションベースの報酬ハックスコア、トークンレベルのエントロピー、決定コンテキスト機能を備える。
また, エージェントアクション選択に報酬-ハック傾向を伝達し, 特に, プロキシ・リワードの価格を公開した場合に, アダプタを微調整することで, エージェントアクション選択に報酬-ハック傾向を伝達できることが判明した。
しかし、そのような振る舞いを緩和することは、アクティベーションダイナミクスのみに依存することはできない。
高報酬-ハックアクティベーションは、潜伏した政策状態を認識するが、必ずしも即時的なエクスプロイトアクションを暗示するわけではない。
次ステップの予測タスク、エントロピー、コンテキストキャリブレーションされた内部機能は、報酬-ハックのみのアクティベーションよりもリスク推定を改善する。
アクティベーション指向のステアリングは、選択された混合アダプタ系におけるプロキシ・エクスロイトの振る舞いをさらに減少させる。
報奨-ハックアクティベーションは潜伏した政策状態を特定し、エントロピーと意思決定コンテキストは、その状態がいつ危険な行動になるかを決定するのに役立ちます。
関連論文リスト
- VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring [60.53395558502203]
Vision-Language Embodied Safety Agent (VLESA)は、自我中心のビデオから人間の活動を監視する。
VLESAは、コンテキストに応じて同一のアクションが安全または危険である意図に依存した安全性に対処する。
目標を共同で推測し,映像から将来の行動を予測するための意図-行動予測エージェントを提案する。
論文 参考訳(メタデータ) (2026-06-02T17:42:17Z) - From AI-Generated Content to Agentic Action: Security and Safety Threats in Generative AI [14.644207081930817]
本研究は、コンテンツレベル、モデルレベル、エージェントレベルの脅威に移行した際のセキュリティと安全性について検討する。
我々は、モデルがアーティファクトの生成からツールチェーンや外部APIによる操作の実行に移行するにつれて、攻撃者のアクセス要件、システム自律性、潜在的な有害な変化の範囲をどのように分析する。
論文 参考訳(メタデータ) (2026-05-15T13:53:02Z) - OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents [74.20327254615854]
大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
LLMエージェントの既存の推論時間適応法は、主にプロンプトや検索に依存している。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
論文 参考訳(メタデータ) (2026-05-11T19:28:20Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - Monitoring Emergent Reward Hacking During Generation via Internal Activations [1.522424334864671]
微調整された言語モデルは、創発的不適応に起因する報奨行動を示すことができる。
本稿では,モデルが応答を生成するとき,内部表現から報酬ハッキング信号を検出する,アクティベーションに基づくモニタリング手法を提案する。
論文 参考訳(メタデータ) (2026-03-04T13:44:24Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning [6.937243101289336]
教師なし強化学習(RL)のエントロピー最小化とエントロピー最大化は異なる環境において有効であることが示されている。
マルチアームバンディット問題としての選択をフレーミングすることで、エントロピー条件に応じて、その目的をオンラインで適応できるエージェントを提案する。
我々は,このようなエージェントがエントロピーを制御し,高エントロピーと低エントロピーの両体制において創発的な行動を示すことを実証した。
論文 参考訳(メタデータ) (2024-05-27T14:58:24Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。