論文の概要: AnySlot: Goal-Conditioned Vision-Language-Action Policies for Zero-Shot Slot-Level Placement
- arxiv url: http://arxiv.org/abs/2604.10432v2
- Date: Tue, 14 Apr 2026 04:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 14:01:13.331745
- Title: AnySlot: Goal-Conditioned Vision-Language-Action Policies for Zero-Shot Slot-Level Placement
- Title(参考訳): AnySlot:ゼロショットスロットレベル配置のためのゴールコンディション付きビジョンランゲージアクションポリシー
- Authors: Zhaofeng Hu, Sifan Zhou, Qinbo Zhang, Rongtao Xu, Qi Su, Ci-Jyun Liang,
- Abstract要約: スロットレベルのタスクは、信頼性の高いスロットグラウンドとサブセンチメートル実行精度を必要とする。
我々は,空間的な視覚的目標を明示的に導入することによって構成の複雑さを低減するフレームワークであるAnySlotを提案する。
実験により、AnySlotは、ゼロショットスロットレベルの配置において、フラットなVLAベースラインや以前のモジュラーグラウンド法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 19.795632584815035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) policies have emerged as a versatile paradigm for generalist robotic manipulation. However, precise object placement under compositional language instructions remains a major challenge for modern monolithic VLA policies. Slot-level tasks require both reliable slot grounding and sub-centimeter execution accuracy. To this end, we propose AnySlot, a framework that reduces compositional complexity by introducing an explicit spatial visual goal as an intermediate representation between language grounding and control. AnySlot turns language into an explicit visual goal by generating a scene marker, then executes this goal with a goal-conditioned VLA policy. This hierarchical design effectively decouples high-level slot selection from low-level execution, ensuring both semantic accuracy and spatial robustness. Furthermore, recognizing the lack of existing benchmarks for such precision-demanding tasks, we introduce SlotBench, a comprehensive simulation benchmark featuring nine task categories tailored to evaluate structured spatial reasoning in slot-level placement. Extensive experiments show that AnySlot significantly outperforms flat VLA baselines and previous modular grounding methods in zero-shot slot-level placement.
- Abstract(参考訳): VLA(Vision-Language-Action)ポリシーは、汎用的なロボット操作のパラダイムとして登場した。
しかしながら、合成言語命令の下での正確なオブジェクト配置は、現代のモノリシックVLAポリシーにとって大きな課題である。
スロットレベルのタスクは、信頼性の高いスロットグラウンドとサブセンシティメータの実行精度の両方を必要とする。
そこで本稿では,言語接地と制御の中間表現として空間的視覚的目標を明示することにより,構成複雑性を低減するフレームワークであるAnySlotを提案する。
AnySlotは、シーンマーカーを生成して言語を明示的な視覚目標に変換し、ゴール条件付きVLAポリシーでこの目標を実行する。
この階層設計は、意味的精度と空間的堅牢性の両方を保証するために、低レベルの実行から高レベルのスロット選択を効果的に分離する。
さらに、これらの精度要求タスクに対する既存のベンチマークの欠如を認識し、スロットレベルの配置における空間的推論構造を評価するのに適した9つのタスクカテゴリを含む総合的なシミュレーションベンチマークであるSlotBenchを紹介した。
大規模な実験により、AnySlotはゼロショットスロットレベルの配置において、フラットなVLAベースラインや以前のモジュラーグラウンドメソッドよりも大幅に優れていた。
関連論文リスト
- SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding [5.9095311593289575]
SlotVTGは、MLLMを最小限のコストで、オブジェクト中心の、入力基底の視覚的推論に向けるフレームワークである。
我々のアプローチは、最小限のオーバーヘッドで競合するIn-Domain(ID)性能を維持しながら、OODロバスト性を大幅に改善します。
論文 参考訳(メタデータ) (2026-03-26T17:59:31Z) - VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models [80.1055544841585]
ビジョン・ランゲージ・アクションモデルは通常、視覚観察と言語指示を直接ロボット制御信号にマッピングする。
本稿では,高レベルの推論と低レベルの実行を,構造化された視覚的プロンプトインタフェースを介して分離する,デュアルシステムフレームワークであるVP-VLAを提案する。
Robocasa-GR1-TabletopベンチマークとSimplerEnvシミュレーションの実験は、VP-VLAが成功率を5%と8.3%改善することを示した。
論文 参考訳(メタデータ) (2026-03-23T14:08:58Z) - KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition [89.7916653471162]
本稿では,多様なキネマティック属性を密に符号化する,新しいキネマティックスリッチな視覚言語アクション(VLA)タスクを提案する。
この設定では、タスクゴールは不変のままであり、実行軌跡は命令レベルのキネマティック仕様に適応する必要がある。
我々は、KineVLAがキネマティクスに敏感なベンチマークで強いVLAベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-18T09:28:49Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Scaling World Model for Hierarchical Manipulation Policies [61.736772957803026]
Vision-Language-Action(VLA)モデルは、汎用的なロボット操作を約束するが、配布外設定では脆弱である。
本稿では,大規模事前学習型世界モデルの一般化を活用した階層型ビジョン・ランゲージ・アクション・フレームワークを提案する。
視覚目標合成と階層型VLAポリシの両方を,大規模なアウト・オブ・ディストリビューションシナリオで検証する。
論文 参考訳(メタデータ) (2026-02-11T16:12:33Z) - Towards Pixel-Level VLM Perception via Simple Points Prediction [27.271487302305726]
マルチモーダル大規模言語モデル(MLLM)をネイティブなピクセルレベルの知覚で実現するための,極めて単純かつ高効率なアプローチであるSimpleSegを提案する。
提案手法は分割を単純なシーケンス生成問題として再設定し,そのモデルがポイントのシーケンスを直接予測する。
標準のMLLMアーキテクチャは、特別なアーキテクチャを使わずにアンロックできるような、低レベルの知覚に強く固有の能力を持っていることが判明した。
論文 参考訳(メタデータ) (2026-01-27T05:50:40Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。