論文の概要: Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.01618v1
- Date: Sun, 04 Jan 2026 17:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.625888
- Title: Action-Sketcher: From Reasoning to Action via Visual Sketches for Long-Horizon Robotic Manipulation
- Title(参考訳): Action-Sketcher:ロング水平ロボットマニピュレーションのためのビジュアルスケッチによる推論からアクションへ
- Authors: Huajie Tan, Peterson Co, Yijie Xu, Shanyu Rong, Yuheng Ji, Cheng Chi, Xiansheng Chen, Qiongyu Zhang, Zhongxia Zhao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang,
- Abstract要約: 長距離ロボット操作は、現実世界の展開においてますます重要になっている。
既存のエンドツーエンドおよび階層的なビジョン・ランゲージ・アクションポリシーは、しばしばテキストのみの手がかりに依存している。
ロボットの現在のビューに、ポイント、ボックス、矢印、型付き関係を描画する、不可解な視覚中間体であるVisual Sketchを導入する。
本稿では,サイクリックSee-Think-Sketch-Actワークフローで動作するVLAフレームワークであるAction-Sketcherを紹介する。
- 参考スコア(独自算出の注目度): 37.76888706583038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon robotic manipulation is increasingly important for real-world deployment, requiring spatial disambiguation in complex layouts and temporal resilience under dynamic interaction. However, existing end-to-end and hierarchical Vision-Language-Action (VLA) policies often rely on text-only cues while keeping plan intent latent, which undermines referential grounding in cluttered or underspecified scenes, impedes effective task decomposition of long-horizon goals with close-loop interaction, and limits causal explanation by obscuring the rationale behind action choices. To address these issues, we first introduce Visual Sketch, an implausible visual intermediate that renders points, boxes, arrows, and typed relations in the robot's current views to externalize spatial intent, connect language to scene geometry. Building on Visual Sketch, we present Action-Sketcher, a VLA framework that operates in a cyclic See-Think-Sketch-Act workflow coordinated by adaptive token-gated strategy for reasoning triggers, sketch revision, and action issuance, thereby supporting reactive corrections and human interaction while preserving real-time action prediction. To enable scalable training and evaluation, we curate diverse corpus with interleaved images, text, Visual Sketch supervision, and action sequences, and train Action-Sketcher with a multi-stage curriculum recipe that combines interleaved sequence alignment for modality unification, language-to-sketch consistency for precise linguistic grounding, and imitation learning augmented with sketch-to-action reinforcement for robustness. Extensive experiments on cluttered scenes and multi-object tasks, in simulation and on real-world tasks, show improved long-horizon success, stronger robustness to dynamic scene changes, and enhanced interpretability via editable sketches and step-wise plans. Project website: https://action-sketcher.github.io
- Abstract(参考訳): 長距離ロボット操作は、複雑なレイアウトにおける空間的曖昧さと動的相互作用の下での時間的レジリエンスを必要とする、現実世界の展開においてますます重要になっている。
しかしながら、既存のエンドツーエンドかつ階層的なビジョン・ランゲージ・アクション(VLA)ポリシーは、しばしばテキストのみの手がかりに依存し、計画意図の潜伏は、散らばったシーンや未特定シーンでの参照基盤を損なうものであり、ループ間相互作用による長い水平目標の効率的なタスク分解を阻害し、アクション選択の理論的背景を隠蔽することで因果説明を制限する。
これらの問題に対処するために、まず視覚的中間体であるVisual Sketchを導入し、ロボットの現在のビューに点、ボックス、矢印、型付き関係を描画し、空間的意図を外部化し、言語をシーン幾何学に接続する。
Visual Sketch上に構築したAction-SketcherはサイクリックSee-Think-Sketch-Actワークフローで動作し、推論トリガ、スケッチリビジョン、アクション発行のためのアダプティブトークンゲート戦略によって協調される。
スケーラブルなトレーニングと評価を実現するため,インターリーブ画像,テキスト,ビジュアルスケッチ管理,アクションシーケンスを用いて多様なコーパスをキュレートし,モーダル統一のためのインターリーブシーケンスアライメント,正確な言語的接地のための言語間整合性,堅牢性のためのスケッチ・ツー・アクション強化による模倣学習を組み合わせた多段階のカリキュラムでAction-Sketcherを訓練する。
乱雑なシーンやマルチオブジェクトタスク、シミュレーションや実世界のタスクに関する広範な実験は、長期的成功の改善、動的なシーンの変化に対する強靭性、編集可能なスケッチやステップワイズプランによる解釈可能性の向上を示している。
プロジェクトウェブサイト:https://action-sketcher.github.io
関連論文リスト
- From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Learning Semantic-Geometric Task Graph-Representations from Human Demonstrations [16.68801520494275]
対象の同一性や対象間の関係を符号化する意味幾何学的タスクグラフ表現と,その時間的幾何学的進化を人間の実演から導入する。
意味幾何学的タスクグラフ表現は、高い動作とオブジェクトの可変性を持つタスクに特に有益であることを示す。
論文 参考訳(メタデータ) (2026-01-16T17:35:00Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。