論文の概要: IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation
- arxiv url: http://arxiv.org/abs/2605.14712v1
- Date: Thu, 14 May 2026 11:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.795524
- Title: IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation
- Title(参考訳): IntentVLA:Aliased Robot Manipulationのための短軸インテントモデリング
- Authors: Shijie Lian, Bin Yu, Xiaopeng Lin, Zhaolong Shen, Laurence Tianruo Yang, Yurun Jin, Haishan Liu, Changti Wu, Hang Yuan, Cong Huang, Kai Chen,
- Abstract要約: IntentVLAは歴史条件付きVLAフレームワークで、最近の視覚的観察をコンパクトな短水平意図表現にエンコードする。
また,RoboTwin2上での12タスクのあいまいさを意識したベンチマークであるAliasBenchを紹介した。
- 参考スコア(独自算出の注目度): 21.665223791468076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot imitation data are often multimodal: similar visual-language observations may be followed by different action chunks because human demonstrators act with different short-horizon intents, task phases, or recent context. Existing frame-conditioned VLA policies infer each chunk from the current observation and instruction alone, so under partial observability they may resample different intents across adjacent replanning steps, leading to inter-chunk conflict and unstable execution. We introduce IntentVLA, a history-conditioned VLA framework that encodes recent visual observations into a compact short-horizon intent representation and uses it to condition chunk generation. We further introduce AliasBench, a 12-task ambiguity-aware benchmark on RoboTwin2 with matched training data and evaluation environments that isolate short-horizon observation aliasing. Across AliasBench, SimplerEnv, LIBERO, and RoboCasa, IntentVLA improves rollout stability and outperforms strong VLA baselines
- Abstract(参考訳): ロボットの模倣データは、しばしばマルチモーダルである:同様の視覚言語による観察は、人間のデモ参加者が異なる短距離方向の意図、タスクフェーズ、または最近の状況で行動するため、異なるアクションチャンクが続く可能性がある。
既存のフレーム条件付きVLAポリシーは、現在の観測と指示のみから各チャンクを推測するので、部分的な可観測性の下では、隣接する計画ステップ間で異なる意図を再サンプリングし、チャンク間の衝突と不安定な実行につながる可能性がある。
IntentVLAは、歴史条件付きVLAフレームワークで、最近の視覚観測をコンパクトな短水平意図表現に符号化し、それを条件チャンク生成に利用する。
さらに,RoboTwin2上での12タスクのあいまいさを意識したベンチマークであるAliasBenchを紹介する。
AliasBench、SimplerEnv、LIBERO、RoboCasaの他、IntentVLAはロールアウト安定性を改善し、強力なVLAベースラインを上回っている
関連論文リスト
- RotVLA: Rotational Latent Action for Vision-Language-Action Model [54.22746299071677]
本稿では,連続的な回転潜在動作表現に基づくVLAフレームワークであるRotVLAを紹介する。
潜在作用はSO(n) の元としてモデル化され、連続性、構成性、および実世界の作用力学と整合した構造的幾何学を提供する。
RotVLAはVLMバックボーンとフローマッチングアクションヘッドで構成される。
論文 参考訳(メタデータ) (2026-05-13T11:58:02Z) - Membership Inference Attacks on Vision-Language-Action Models [18.964278149350747]
本稿では,視覚言語行動モデル(VLA)に対するメンバーシップ推論攻撃に関する最初の体系的研究について述べる。
我々の攻撃は、トークンの確率のような古典的なMIA信号と、観測可能な動作誤差や時間的動きパターンのようなVLA固有の信号の両方を利用する。
我々の研究結果によると、ロボットと具体化されたAIのプライバシーリスクがこれまで過小評価され、VLAモデルの専用のプライバシー評価と防衛の必要性が浮き彫りになっている。
論文 参考訳(メタデータ) (2026-05-08T01:16:00Z) - Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining [56.62125584296097]
Keyframe-Chaining VLAは、キー履歴フレームを抽出し、長い水平依存関係をモデル化するフレームワークである。
本研究では,現在の実行フェーズに対する時間的関連性に基づいて,動的に履歴フレームを検索する進捗対応機構を設計する。
タスク成功率を測定するために,ManiSkillシミュレータ上に構築された4つの非マルコフ操作タスクスイートを紹介する。
論文 参考訳(メタデータ) (2026-03-02T05:26:29Z) - LoLA: Long Horizon Latent Action Learning for General Robot Manipulation [38.209790870296835]
Long Horizon Latent Action Learning (LoLA)は、ロボット操作用に設計されたフレームワークである。
まず視覚言語モデルを用いて、歴史的シーケンスと多視点観測からリッチな文脈特徴を符号化する。
次に、視覚入力と言語コマンドを動作可能なロボットモーション空間に変換するステートアウェアラテント表現を導入する。
論文 参考訳(メタデータ) (2025-12-23T08:45:24Z) - ContextVLA: Vision-Language-Action Model with Amortized Multi-Frame Context [54.58057019521198]
時間的コンテキストを活用することは、部分的に観察可能なロボットタスクの成功に不可欠である。
動作のクローン化に関する以前の研究は、複数フレームの観測で不整合のパフォーマンス向上を示した。
マルチフレーム観測を効果的に活用することにより、ロボットタスクのパフォーマンスを堅牢に向上するポリシーモデルであるContextVLAを紹介する。
論文 参考訳(メタデータ) (2025-10-05T15:29:57Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic
Tabletop Manipulation [38.66406497318709]
この研究はテーブルトップ操作タスクに焦点を当て、色、サイズ、空間、算術、参照にまたがる様々なロングホライゾン推論側面をカバーするシミュレーションベンチマークである textitLoHoRavens をリリースする。
LLMに明示的および暗黙的な観察フィードバックを組み込むためのキャプション生成と学習可能なインタフェースの2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-18T14:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。