論文の概要: TRACE: Textual Reasoning for Affordance Coordinate Extraction
- arxiv url: http://arxiv.org/abs/2511.01999v1
- Date: Mon, 03 Nov 2025 19:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.660084
- Title: TRACE: Textual Reasoning for Affordance Coordinate Extraction
- Title(参考訳): TRACE: Affordance Coordinate extractのためのテキスト推論
- Authors: Sangyun Park, Jin Kim, Yuchen Cui, Matthew S. Brown,
- Abstract要約: VLM(Vision-Language Models)は、ロボット操作に必要な正確な空間的余裕に高レベルの命令を翻訳するのに苦労する。
本稿では,Reasoningのテキスト・チェーンをアベイランス・予測プロセスに統合する新しい手法であるTRACEを紹介する。
実験の結果,提案するTRACEモデルでは最先端性能が得られ,Where2Placeベンチマークでは48.1%の精度が得られた。
- 参考スコア(独自算出の注目度): 4.374024319540872
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) struggle to translate high-level instructions into the precise spatial affordances required for robotic manipulation. While visual Chain-of-Thought (CoT) methods exist, they are often computationally intensive. In this work, we introduce TRACE (Textual Reasoning for Affordance Coordinate Extraction), a novel methodology that integrates a textual Chain of Reasoning (CoR) into the affordance prediction process. We use this methodology to create the TRACE dataset, a large-scale collection created via an autonomous pipeline that pairs instructions with explicit textual rationales. By fine-tuning a VLM on this data, our model learns to externalize its spatial reasoning before acting. Our experiments show that our TRACE-tuned model achieves state-of-the-art performance, reaching 48.1% accuracy on the primary Where2Place (W2P) benchmark (a 9.6% relative improvement) and 55.0% on the more challenging W2P(h) subset. Crucially, an ablation study demonstrates that performance scales directly with the amount of reasoning data used, confirming the CoR's effectiveness. Furthermore, analysis of the model's attention maps reveals an interpretable reasoning process where focus shifts dynamically across reasoning steps. This work shows that training VLMs to generate a textual CoR is an effective and robust strategy for enhancing the precision, reliability, and interpretability of VLM-based robot control. Our dataset and code are available at https://github.com/jink-ucla/TRACE
- Abstract(参考訳): VLM(Vision-Language Models)は、ロボット操作に必要な正確な空間的余裕に高レベルの命令を翻訳するのに苦労する。
ビジュアル・チェーン・オブ・ソート(CoT)法は存在するが、しばしば計算集約的である。
本研究は,提案手法であるTRACE(Textual Reasoning for Affordance Coordinate extract)を紹介する。
この手法を用いてTRACEデータセットを作成する。これは、命令と明示的なテキストの合理性とをペアリングする自律パイプラインを通じて作成された大規模なコレクションである。
このデータにVLMを微調整することで、我々のモデルは行動する前にその空間的推論を外部化することを学ぶ。
実験の結果,提案するTRACEモデルでは,W2Place (W2P) ベンチマークで48.1%,難易度の高いW2P(h) サブセットで55.0%の精度が得られた。
重要なことは、アブレーション研究は、性能が使用する推論データ量と直接的にスケールすることを示し、CoRの有効性を確認している。
さらに、モデル注意マップの解析により、推論ステップを通して焦点が動的にシフトする解釈可能な推論過程が明らかにされる。
本研究は,VLMを用いたロボット制御の精度,信頼性,解釈性を高めるために,テキストCoRを生成するためのVLMのトレーニングが効果的かつ堅牢な戦略であることを示す。
私たちのデータセットとコードはhttps://github.com/jink-ucla/TRACEで公開されています。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - 4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。
カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。
我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文 参考訳(メタデータ) (2025-06-27T14:09:29Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Where Should I Spend My FLOPS? Efficiency Evaluations of Visual
Pre-training Methods [29.141145775835106]
固定されたFLOP予算が与えられた場合、代表的な視覚的タスクに対して高い正確性を得るために最適なデータセット、モデル、そして(自己監督的な)トレーニング方法は何ですか?
5つの大規模データセット(JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO)と6つの事前学習方法(CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised)を検討した。
本稿の結果は,自己管理手法が本質的に大規模で未処理なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2022-09-30T17:04:55Z) - Scene Text Recognition with Permuted Autoregressive Sequence Models [15.118059441365343]
コンテキスト対応STRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用する。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARおよびコンテキスト対応AR推論を実現し、双方向コンテキストを用いた反復的洗練を実現する。
論文 参考訳(メタデータ) (2022-07-14T14:51:50Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。