論文の概要: StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement
- arxiv url: http://arxiv.org/abs/2604.17887v1
- Date: Mon, 20 Apr 2026 06:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.739244
- Title: StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement
- Title(参考訳): 安定IDM:時空間微細化によるマニピュレータトラニケーションに対する逆ダイナミクスモデルの安定化
- Authors: Kerui Li, Zhe Jing, Xiaofeng Wang, Zheng Zhu, Yukun Zhou, Guan Huang, Dongze Li, Qingkai Yang, Huaibo Huang,
- Abstract要約: 逆ダイナミクスモデル(IDM)は、視覚的な観察を低レベルのアクションコマンドにマッピングする。
このような部分的観測可能性の下で,特徴を視覚入力から安定化し,動作予測を安定化するフレームワークであるStableIDMを提案する。
- 参考スコア(独自算出の注目度): 45.47890002128306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse Dynamics Models (IDMs) map visual observations to low-level action commands, serving as central components for data labeling and policy execution in embodied AI. However, their performance degrades severely under manipulator truncation, a common failure mode that makes state recovery ill-posed and leads to unstable control. We present StableIDM, a spatio-temporal framework that refines features from visual inputs to stabilize action predictions under such partial observability. StableIDM integrates three complementary components: (1) auxiliary robot-centric masking to suppress background clutter, (2) Directional Feature Aggregation (DFA) for geometry-aware spatial reasoning, which extracts anisotropic features along directions inferred from the visible arm and (3) Temporal Dynamics Refinement (TDR) to smooth and correct predictions via motion continuity. Extensive evaluations validate our approach: StableIDM improves strict action accuracy by 12.1% under severe truncation on the AgiBot benchmark, and increases average task success by 9.7% in real-robot replay. Moreover, it boosts end-to-end grasp success by 11.5% when decoding video-generated plans, and improves downstream VLA real-robot success by 17.6% when functioning as an automatic annotator. These results demonstrate that StableIDM provides a robust and scalable backbone for both policy execution and data generation in embodied artificial intelligence.
- Abstract(参考訳): 逆ダイナミクスモデル(IDM)は、視覚的な観察を低レベルのアクションコマンドにマッピングする。
しかし、その性能はマニピュレータ・トランケーションの下で著しく低下し、これは状態回復を不良にし、不安定な制御をもたらす共通の障害モードである。
このような部分的観測可能性の下で、視覚入力から動作予測を安定化するために特徴を洗練する時空間フレームワークであるStableIDMを提案する。
スタブルIDMは,(1)背景クラッタ抑制のための補助ロボット中心マスキング,(2)幾何学的空間推論のための方向的特徴集約(DFA),(3)視覚的アームから推定される方向に沿った異方性特徴を抽出し,(3)時間的ダイナミクスリファインメント(TDR)を用いて運動連続性による滑らかで正確な予測を行う。
StableIDMは、AgiBotベンチマークで厳密な動作精度を12.1%向上し、実際のロボットリプレイで平均タスク成功率を9.7%向上させる。
さらに、ビデオ生成計画の復号化において、エンドツーエンドの把握成功を11.5%向上させ、自動アノテータとして機能する場合には、下流のVLA実ロボットの成功を17.6%向上させる。
これらの結果から、StableIDMは、具体的人工知能におけるポリシー実行とデータ生成の両方のための堅牢でスケーラブルなバックボーンを提供することが示された。
関連論文リスト
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation [53.750389076941396]
拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T14:36:53Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces [3.349003999623489]
本稿では,カスタム6自由度上肢ロボットのための共有制御型リハビリテーションポリシーを提案する。
患者は二進法で一次到達方向を制御し、ロボットは自律的に矯正動作を管理する。
論文 参考訳(メタデータ) (2026-03-06T11:15:10Z) - ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution [0.0]
IoTおよび産業ネットワークの侵入検出には、進化するトラフィックと限定されたラベルの下で信頼性を維持しながら、低い偽陽性率で稀な攻撃を検出できるモデルが必要である。
本研究では,トランスフォーマーをベースとしたシーケンシャルモデリングフレームワークThreatFormer-IDSを提案する。
時系列評価を備えたToN IoTベンチマークでは、ThreatFormer-IDSがAUCROC 0.994、AUC-PR 0.956、Recall@1%FPR 0.910を達成した。
論文 参考訳(メタデータ) (2026-02-26T23:20:42Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control [31.523644271297616]
一般化可能なロボット操作における重要なボトルネックは、現在の視覚的バックボーンと閉ループ制御の物理的要求との間の構造的ミスマッチである。
我々は,マニフォールド蒸留による推論プロセスから幾何学的情報ソースを分離するフレームワークであるRobot-DIFTを提案する。
凍結拡散教師を決定論的空間意味的特徴ピラミッドネットワーク(S2-FPN)に蒸留することにより、時間的安定性、リアルタイム実行、ドリフトに対する堅牢性を確保しつつ、生成モデルの豊富な幾何学的先行性を維持できる。
論文 参考訳(メタデータ) (2026-02-12T13:30:24Z) - InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。