論文の概要: TRAP: Tail-aware Ranking Attack for World-Model Planning
- arxiv url: http://arxiv.org/abs/2605.01950v1
- Date: Sun, 03 May 2026 16:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.012872
- Title: TRAP: Tail-aware Ranking Attack for World-Model Planning
- Title(参考訳): TRAP:世界モデル計画のためのタイル・アウェア・ランキング攻撃
- Authors: Siyuan Duan, Ke Zhang, Xizhao Luo,
- Abstract要約: 世界モデルは、想像上の軌道の長い尾のランキング構造に根ざした、明確なバックドアの脆弱性を示す。
この脆弱性を悪用するため,世界モデルのためのバックドアアタックフレームワークであるTRAPを提案する。
- 参考スコア(独自算出の注目度): 6.036879290384491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models enable long-horizon planning by internally generating and evaluating imagined trajectories, making them a promising foundation for generalist agents. However, this imagination-driven decision process also introduces new security risks. Existing backdoor attacks typically aim to manipulate local features, one-step predictions, or instantaneous policy outputs. While such objectives may suffice for weaker reactive models, they are often ineffective against world models, where the learned dynamics prior and planning process can absorb or wash out the effects of shallow perturbations. More importantly, we find that world models exhibit a distinct backdoor vulnerability rooted in the long-tailed ranking structure of imagined trajectories, where disrupting the ordering of a few decision-critical trajectories can systematically hijack planning. To exploit this vulnerability, we propose TRAP, a backdoor attack framework for world models that targets imagined trajectory ranking. TRAP combines a tail-aware ranking loss to focus optimization on decision-critical trajectories with dual gating mechanisms that stabilize optimization and regulate when and where the attack penalty is applied. Under trigger conditions, TRAP alters the relative ranking of imagined trajectories to redirect planning outcomes, while largely maintaining the normal ranking structure on clean inputs. Experiments on DreamerV3 and TD-MPC2 across diverse tasks show that TRAP consistently induces sustained behavioral deviations and significant performance degradation, highlighting the need for dedicated security evaluation of world-model-based agents.
- Abstract(参考訳): 世界モデルは、想像された軌道を内部的に生成し評価することで長期計画を可能にし、一般エージェントにとって有望な基盤となっている。
しかし、この想像力に基づく決定プロセスは、新たなセキュリティリスクももたらします。
既存のバックドア攻撃は、通常、ローカル機能、ワンステップ予測、即時ポリシー出力を操作することを目的としている。
このような目的はより弱い反応モデルに十分だが、学習されたダイナミクスと計画プロセスが浅い摂動の影響を吸収または洗い流すことができる世界モデルに対して効果がないことが多い。
さらに重要なことは、世界モデルは、想像された軌道の長い尾のランク構造に根ざした、明確なバックドアの脆弱性を示しており、いくつかの決定クリティカルな軌道の順序を乱すことで、体系的にハイジャック計画を行うことができるということです。
この脆弱性を悪用するため,世界モデルのためのバックドアアタックフレームワークであるTRAPを提案する。
TRAPは、最適化を最適化し、いつどこで攻撃ペナルティが適用されるかを規制するデュアルゲーティング機構と、決定クリティカルなトラジェクトリに最適化を集中するために、テールアウェアのランキング損失を結合する。
トリガー条件下では、TRAPは想定された軌道の相対的なランクを計画結果のリダイレクトに変更し、クリーンな入力の通常のランキング構造をほとんど維持する。
DreamerV3 と TD-MPC2 の実験は、TRAP が持続的な行動偏差と大幅な性能劣化を連続的に引き起こし、ワールドモデルベースのエージェントの専用のセキュリティ評価の必要性を強調していることを示している。
関連論文リスト
- AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling [19.766968596602457]
Plan-RewardBench(プラン・リワードベンチ)は、判断者が選好と選好の選好をいかに区別するかを評価するために設計された軌道レベルの選好ベンチマークである。
Plan-RewardBench は、 (i) Safety Refusal、 (ii) Tool-Irrelevance / Unavailability、 (iii) Complex Planning、 (iv) Robust Error Recovery の4つの代表的なタスクファミリをカバーする。
論文 参考訳(メタデータ) (2026-04-09T12:35:06Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - PathWise: Planning through World Model for Automated Heuristic Design via Self-Evolving LLMs [16.59846708454225]
自己進化型LCM(PathWise)による世界自動ヒューリスティックデザインのための計画的計画」と呼ばれる新しいマルチエージェント推論フレームワークを提案する。
PathWiseは、検索軌跡のコンパクトでステートフルなメモリとして機能するエンテーメントグラフ上のシーケンシャルな決定過程を定式化する。
様々なCOP実験により、PathWiseはより高速に収束し、より一般化し、異なるLCMバックボーンをまたいで一般化し、より大きな問題サイズにスケールすることが示された。
論文 参考訳(メタデータ) (2026-01-28T12:34:50Z) - NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation [54.87964060934928]
VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
論文 参考訳(メタデータ) (2025-10-04T18:26:55Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Rejecting Hallucinated State Targets during Planning [84.179112256683]
計画過程において、生成的または予測的モデルは、期待される状態や望ましい状態の集合を表す「ターゲット」を提案するためにしばしば用いられる。
残念ながら、学習したモデルは必然的に幻覚を与え、妄想的な行動や安全上の懸念を引き起こす可能性がある。
我々は、目標実現可能性評価器を学習することで、実現不可能な目標を特定し、拒否する戦略を考案する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。