論文の概要: Ghost in the Context: Measuring Policy-Carriage Failures in Decision-Time Assembly
- arxiv url: http://arxiv.org/abs/2605.12535v2
- Date: Tue, 19 May 2026 10:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.796126
- Title: Ghost in the Context: Measuring Policy-Carriage Failures in Decision-Time Assembly
- Title(参考訳): Ghost in the Context: Measurementing Policy-Carriage Failures in Decision-Time Assembly
- Authors: Igor Santos-Grueiro,
- Abstract要約: LLMエージェントは生のインタラクション履歴に作用せず、トランケーション、要約、並べ替え、書き換えによって組み立てられた境界決定状態に作用する。
本研究では, 局所的なLlama 3.1 8B, Qwen 2.5 7B, Mistral 7B上の障害モードについて, 正確な制約の尊重と, 組立状態の可視性の直接監査を用いて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents do not act on raw interaction history; they act on a bounded decision state assembled by truncation, summarization, reordering, and rewriting. If directive-bearing state is dropped, weakened, or rebound during that step, an agent can cross a policy boundary without prompt override, model changes, or persistent-memory compromise. We study this failure mode over local Llama 3.1 8B, Qwen 2.5 7B, and Mistral 7B using judged exact constraint respect and direct audits of assembled-state visibility. We evaluate SafeContext, a control layer that pins control state, reuses retained control prefixes, and optionally injects reminders under pressure while keeping model weights fixed. Unmitigated risk is systematic, but absolute exact compliance remains low. Against truncation, SafeContext yields small gains; against a strong structured-compaction policy, most aggregate lift disappears, leaving residual benefit mainly in overflow eviction and selected aliasing slices. Replay-only does not explain the effect. A larger-model extension on Qwen 14B and Llama 70B shows the same failure object under larger models, although sign and magnitude remain policy-conditional. Decision-time context assembly is therefore a measurable part of the control path that can be partially hardened.
- Abstract(参考訳): LLMエージェントは生のインタラクション履歴に作用せず、トランケーション、要約、並べ替え、書き換えによって組み立てられた境界決定状態に作用する。
ディレクティブ・ベアリング状態が低下したり、弱くなったり、リバウンドされたりした場合、エージェントは、プロンプトオーバーライドやモデル変更、永続化メモリの妥協なしにポリシー境界を越えることができる。
本研究では, 局所的なLlama 3.1 8B, Qwen 2.5 7B, Mistral 7B上の障害モードについて, 正確な制約の尊重と, 組立状態の可視性の直接監査を用いて検討した。
制御状態をピン留めし、保持された制御プレフィックスを再利用するコントロール層であるSafeContextを評価し、モデルウェイトを固定しながら、任意の圧力下でリマインダーを注入する。
過失リスクは体系的であるが、絶対的確固たるコンプライアンスは依然として低い。
強い構造化された競合ポリシーに対して、ほとんどのアグリゲートリフトは消滅し、主にオーバーフローの排除と選択されたエイリアシングスライスで残余の利益を残します。
リプレイのみの効果は説明できない。
Qwen 14BとLlama 70Bのより大きなモデル拡張は、大きなモデルの下で同じ失敗オブジェクトを示すが、符号と大きさはポリシー条件のままである。
したがって、決定時間コンテキストアセンブリは、部分的に硬化できる制御パスの計測可能な部分である。
関連論文リスト
- One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty [70.43119366710778]
本稿では,Agens-BRACE: Agent Belief state Representation by Abstraction and Confidence Estimationを紹介する。
LLMエージェントを信頼状態モデルと政策モデルに分離し、強化学習を通じて協調的に最適化する手法である。
長期にわたる部分的に観察可能な言語環境において、平均して+14.5%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2026-05-12T02:37:04Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - Support Sufficiency as Consequence-Sensitive Compression in Belief Arbitration [0.0]
システムが仮説にコミットすると、そのコミットメントの背後にある明らかな構造の多くは圧縮に失われます。
標準アカウントは、選択されたコンテンツとスカラーの信頼度が下流制御に十分であると仮定する。
本研究では,実効性制約場が候補に対する仮説幾何を共同で決定する再帰的仲裁アーキテクチャを開発する。
論文 参考訳(メタデータ) (2026-04-06T18:28:45Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - Verifier-Bound Communication for LLM Agents: Certified Bounds on Covert Signaling [0.0]
言語モデルエージェントを結合することで、ポリシーに準拠したメッセージの調整を表面レベルで隠蔽することができる。
生成と受け入れを分離するプロトコルであるCLBCを提案する。
このプロトコルは、遅延リークと明示的な残留チャネルの観点から、転写リークの上限をいかに高めるかを示す。
論文 参考訳(メタデータ) (2026-02-27T23:42:37Z) - Sparsity Is Necessary: Polynomial-Time Stability for Agentic LLMs in Large Action Spaces [11.62669179647184]
ツール拡張LLMシステムは、学習理論が無視してきた制御体制を公開する。
我々は、この設定をスパースエージェント制御(SAC)として定式化し、M上のブロックスパース表現を認めるポリシーを定式化する。
部分可観測性の下では, LLM は信念/表現誤差 epsilon_b によってのみ重要となり, 付加的な O(epsilon_b) 劣化が生じる。
論文 参考訳(メタデータ) (2026-01-13T06:56:53Z) - Refusal Steering: Fine-grained Control over LLM Refusal Behaviour for Sensitive Topics [2.4839105527363574]
本稿では,大言語モデルの拒否動作を詳細に制御する推論時間手法であるRefusal Steeringを紹介する。
有害なコンテンツの安全性を保ちつつ、政治的拒絶行為を除去できることを示す。
論文 参考訳(メタデータ) (2025-12-18T14:43:04Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。