論文の概要: Belief Dynamics for Detecting Behavioral Shifts in Safe Collaborative Manipulation
- arxiv url: http://arxiv.org/abs/2604.04967v1
- Date: Sat, 04 Apr 2026 02:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.365885
- Title: Belief Dynamics for Detecting Behavioral Shifts in Safe Collaborative Manipulation
- Title(参考訳): 安全な協調操作における行動変化検出のための信念ダイナミクス
- Authors: Devashri Naik, Divake Kumar, Nastaran Darabi, Amit Ranjan Trivedi,
- Abstract要約: ManiSkill共有ワークスペース操作タスクにおいて、制御された非定常性の下でのシステマティックスウィッチ検出について検討する。
10つの検出方法と5つのランダムなシードによって、検出が可能になったことにより、スウィッチ後の衝突が52%減少する。
UA-TOMは、凍結した視覚-言語-行動制御バックボーンを増強する軽量な信念追跡モジュールである。
- 参考スコア(独自算出の注目度): 3.198214897627444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in shared workspaces must maintain safe coordination with other agents whose behavior may change during task execution. When a collaborating agent switches strategy mid-episode, continuing under outdated assumptions can lead to unsafe actions and increased collision risk. Reliable detection of such behavioral regime changes is therefore critical. We study regime-switch detection under controlled non-stationarity in ManiSkill shared-workspace manipulation tasks. Across ten detection methods and five random seeds, enabling detection reduces post-switch collisions by 52%. However, average performance hides significant reliability differences: under a realistic tolerance of +-3 steps, detection ranges from 86% to 30%, while under +-5 steps all methods achieve 100%. We introduce UA-TOM, a lightweight belief-tracking module that augments frozen vision-language-action (VLA) control backbones using selective state-space dynamics, causal attention, and prediction-error signals. Across five seeds and 1200 episodes, UA-TOM achieves the highest detection rate among unassisted methods (85.7% at +-3) and the lowest close-range time (4.8 steps), outperforming an Oracle (5.3 steps). Analysis shows hidden-state update magnitude increases by 17x at regime switches and decays over roughly 10 timesteps, while the discretization step converges to a near-constant value (Delta_t approx 0.78), indicating sensitivity driven by learned dynamics rather than input-dependent gating. Cross-domain experiments in Overcooked show complementary roles of causal attention and prediction-error signals. UA-TOM introduces 7.4 ms inference overhead (14.8% of a 50 ms control budget), enabling reliable regime-switch detection without modifying the base policy.
- Abstract(参考訳): 共有ワークスペースで動作しているロボットは、タスク実行中に振る舞いが変わる可能性のある他のエージェントとの安全な調整を維持しなければならない。
協調エージェントがエピソードの途中で戦略を切り替えると、時代遅れの仮定が続くと、安全でない行動や衝突リスクが増大する。
そのため、そのような行動体制の変化を確実に検出することが重要である。
ManiSkill共有ワークスペース操作タスクにおいて、制御された非定常性の下でのシステマティックスウィッチ検出について検討する。
10つの検出方法と5つのランダムなシードによって、検出が可能になったことにより、スウィッチ後の衝突が52%減少する。
しかし、平均的なパフォーマンスは重大な信頼性の差を隠している: +-3 ステップの現実的な許容の下では、検出範囲は 86% から 30% の範囲であり、+-5 ステップ以下では、すべてのメソッドが100%を達成する。
UA-TOMは、選択的状態空間力学、因果注意、予測エラー信号を用いて、凍結した視覚言語反応(VLA)制御バックボーンを増強する軽量な信念追跡モジュールである。
5つの種と1200回のエピソードで、UA-TOMは未支援の方法(+-3で85.7%)と最も低い近距離時間(4.8ステップ)を達成し、Oracle(5.3ステップ)を上回っている。
解析の結果, 状態変化のマグニチュードが約10回の時間経過で17倍増加し, 離散化ステップがほぼ一定値(Delta_t approx 0.78)に収束し, 入力依存ゲーティングよりも学習ダイナミクスによって駆動される感度を示す。
Overcookedにおけるクロスドメイン実験は、因果的注意と予測エラー信号の相補的な役割を示している。
UA-TOMは7.4msの推論オーバーヘッド(50ms制御予算の14.8%)を導入し、基本方針を変更することなく信頼性の高いレシシ・スウィッチ検出を可能にする。
関連論文リスト
- Understanding NPM Malicious Package Detection: A Benchmark-Driven Empirical Analysis [10.599261033874884]
NPMエコシステムは、ソフトウェアサプライチェーン攻撃の主要なターゲットとなっている。
ベンチマークによるNPMマルウェア検出の実証分析を行う。
我々は、11の行動カテゴリと8の回避テクニックを付加した、6,420の悪意のある7,288の良性パッケージのデータセットを構築した。
論文 参考訳(メタデータ) (2026-03-29T07:04:31Z) - SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do [0.0]
SafetyDriftモデルでは、安全軌道をマルコフ連鎖の吸収として扱う。
コミュニケーションタスクでは、軽度のリスク状態にまで達するエージェントは、5段階以内に安全を侵害する確率が85%である。
これらのモデル上に構築されたモニターは94.7%の違反を検知し、3.7ステップの事前警告を無視可能な計算コストで行う。
論文 参考訳(メタデータ) (2026-03-28T05:52:04Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Scalable Multi-Task Low-Rank Model Adaptation [43.22544779625565]
マルチタスク低ランク適応(LoRA)を多数のタスクに拡張すると、破滅的なパフォーマンス劣化を引き起こす。
規則化や動的ルーティングのような既存のソリューションは、基本的なトレードオフによって制約されるため、スケールで失敗するのです。
3つの新しい設計を持つスケーラブルなソリューションであるmtLoRAを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:57:11Z) - Beyond Reward: A Bounded Measure of Agent Environment Coupling [0.0]
両予測可能性 (P) は, 観測, 行動, 結果ループにおける共有情報の合計情報に対する比率として導入する。
補助モニタであるIDT(Information Digital Twin)は、インタラクションストリームからPとその診断コンポーネントを演算する。
我々は,MuJoCo HalfCheetahのSACおよびPPO剤を8剤,環境側摂動を168試験で評価した。
論文 参考訳(メタデータ) (2026-03-01T21:38:39Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Multimodal Safety Evaluation in Generative Agent Social Simulations [43.972551727499116]
エージェントを3次元で評価するための再現可能なシミュレーションフレームワークを提案する。
エージェントはしばしば、地域のリビジョンとグローバルな安全の整合に失敗し、安全でない計画の修正で55%の成功率にしか達していないことを示す。
特に、誤解を招く視覚と組み合わせると、安全でない行動の45%が受け入れられ、画像が過信される傾向が強かった。
論文 参考訳(メタデータ) (2025-10-09T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。