論文の概要: Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation
- arxiv url: http://arxiv.org/abs/2605.00438v1
- Date: Fri, 01 May 2026 06:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.870738
- Title: Thinking in Text and Images: Interleaved Vision--Language Reasoning Traces for Long-Horizon Robot Manipulation
- Title(参考訳): テキストと画像における思考--長距離ロボットマニピュレーションのための言語推論トレース
- Authors: Jinkun Liu, Haohan Chi, Lingfeng Zhang, Yifan Xie, YuAn Wang, Long Chen, Hangjun Ye, Xiaoshuai Hao, Wenbo Ding,
- Abstract要約: ロングホライゾンのロボット操作は論理的に一貫性があり、幾何学的に接地された計画を必要とする。
タスク全体にわたってテキストサブゴールと視覚を交換するポリシーフレームワークであるInterleaved Vision-Language Reasoning(IVLR)を紹介する。
標準的なロボットデータセットにはそのようなトレースがないため、デモを時間的に分割し、各ステージを視覚言語モデルでキャプションすることで擬似スーパービジョンを構築する。
- 参考スコア(独自算出の注目度): 17.396690673011328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon robotic manipulation requires plans that are both logically coherent and geometrically grounded. Existing Vision-Language-Action policies usually hide planning in latent states or expose only one modality: text-only chain-of-thought encodes causal order but misses spatial constraints, while visual prediction provides geometric cues but often remains local and semantically underconstrained. We introduce Interleaved Vision--Language Reasoning (IVLR), a policy framework built around \trace{}, an explicit intermediate representation that alternates textual subgoals with visual keyframes over the full task horizon. At test time, a single native multimodal transformer self-generates this global semantic-geometric trace from the initial observation and instruction, caches it, and conditions a closed-loop action decoder on the trace, original instruction, and current observation. Because standard robot datasets lack such traces, we construct pseudo-supervision by temporally segmenting demonstrations and captioning each stage with a vision-language model. Across simulated benchmarks for long-horizon manipulation and visual distribution shift, \method{} reaches 95.5\% average success on LIBERO, including 92.4\% on LIBERO-Long, and 59.4\% overall success on SimplerEnv-WidowX. Ablations show that both modalities are necessary: without traces, LIBERO-Long success drops to 37.7\%; text-only and vision-only traces reach 62.0\% and 68.4\%, while the full interleaved trace reaches 92.4\%. Stress tests with execution perturbations and masked trace content show moderate degradation, suggesting that the trace can tolerate local corruption and moderate execution drift, but remains limited under stale or incorrect global plans.
- Abstract(参考訳): ロングホライゾンのロボット操作には、論理的に一貫性があり、幾何学的に接地された計画が必要である。
既存のVision-Language-Actionポリシーは、通常、潜伏状態の計画を隠すか、1つのモードしか公開しない: テキストのみのチェーン・オブ・シークレットは因果順序を符号化するが、空間的制約を見逃す。
ILR(Interleaved Vision-Language Reasoning)は,タスク全体にわたってテキストサブゴールと視覚的キーフレームを交換する,明示的な中間表現である。
テスト時には、単一ネイティブなマルチモーダルトランスフォーマーが、このグローバルなセマンティックなトレースを初期観測と命令から自己生成し、キャッシュし、トレース、オリジナル命令、現在の観測に関するクローズドループアクションデコーダを条件とする。
標準的なロボットデータセットにはそのようなトレースがないため、デモを時間的に分割し、各ステージを視覚言語モデルでキャプションすることで擬似スーパービジョンを構築する。
ロングホライズン操作と視覚分布シフトのシミュレーションベンチマーク全体で、 \method{} は LIBERO-Long で 92.4\%、SimplerEnv-WidowX で 59.4\% を含む LIBERO で 95.5\% に到達した。
LIBERO-Longの成功率は37.7\%に低下し、テキストのみのトレースとビジョンのみのトレースは62.0\%と68.4\%に達し、完全なインターリーブされたトレースは92.4\%に達する。
実行摂動とマスクされたトレース含有量によるストレステストは、緩やかな劣化を示し、トレースは局所的な腐敗と適度な実行ドリフトを許容できるが、古いまたは誤ったグローバルプランの下では制限されていることを示唆している。
関連論文リスト
- Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models [2.5338045371474816]
VLA(Vision-Language-Action)モデルは、単一のアーキテクチャにおける知覚、言語、運動制御を組み合わせたモデルである。
394,000回以上のロールアウトエピソードにまたがる80M--7Bパラメータに,アクティベーションインジェクション,スパースオートエンコーダ,線形プローブを適用した。
論文 参考訳(メタデータ) (2026-03-19T17:59:55Z) - PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models [23.263895549689863]
既存の手法は、言語のトークンのみを監督に用いながら、次世代の予測損失にのみ依存する。
mnameは、微粒な3次元幾何学的意味情報を保持するために、中間点のクラウドトークンを明示的に監督する。
モデルNet40および逆データセットを用いた実験により,本手法は,分類タスクの平均値に対して,textbf2.08ppの改善を達成できることを示した。
論文 参考訳(メタデータ) (2026-02-28T02:17:46Z) - VIPER Strike: Defeating Visual Reasoning CAPTCHAs via Structured Vision-Language Inference [4.830055389040475]
視覚推論CAPTCHA(Visual Reasoning CAPTCHA)は、視覚シーンと自然言語クエリを組み合わせて、オブジェクト、属性、空間関係に対する合成推論を要求する。
構造化多目的視覚認識と適応LDMに基づく推論を統合した統合攻撃フレームワークViPerを提案する。
ViPerは最大93.2%の成功を達成し、複数のベンチマークで人間レベルのパフォーマンスに近づいている。
論文 参考訳(メタデータ) (2026-01-10T07:01:53Z) - Act2Goal: From World Model To General Goal-conditioned Policy [14.222177107215648]
Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
論文 参考訳(メタデータ) (2025-12-29T15:28:42Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。