論文の概要: TRACE: A Self-Improving Framework for Robot Behavior Forecasting with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.00761v1
- Date: Sun, 02 Mar 2025 06:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:25.801967
- Title: TRACE: A Self-Improving Framework for Robot Behavior Forecasting with Vision-Language Models
- Title(参考訳): TRACE:視覚言語モデルを用いたロボット行動予測のための自己改善フレームワーク
- Authors: Gokul Puthumanaillam, Paulo Padrao, Jose Fuentes, Pranay Thangeda, William E. Schafer, Jae Hyuk Song, Karan Jagdale, Leonardo Bobadilla, Melkior Ornik,
- Abstract要約: 反応剤の短期的挙動を予測することは、多くのロボットシナリオにおいて重要である。
本稿では,ツリー・オブ・ソート・ジェネレーションとドメイン・アウェア・フィードバックを結合した推論フレームワークTRACEを提案する。
我々は,地上車両シミュレーションと実世界海面車両の両面においてTRACEを検証した。
- 参考スコア(独自算出の注目度): 1.3408365072149797
- License:
- Abstract: Predicting the near-term behavior of a reactive agent is crucial in many robotic scenarios, yet remains challenging when observations of that agent are sparse or intermittent. Vision-Language Models (VLMs) offer a promising avenue by integrating textual domain knowledge with visual cues, but their one-shot predictions often miss important edge cases and unusual maneuvers. Our key insight is that iterative, counterfactual exploration--where a dedicated module probes each proposed behavior hypothesis, explicitly represented as a plausible trajectory, for overlooked possibilities--can significantly enhance VLM-based behavioral forecasting. We present TRACE (Tree-of-thought Reasoning And Counterfactual Exploration), an inference framework that couples tree-of-thought generation with domain-aware feedback to refine behavior hypotheses over multiple rounds. Concretely, a VLM first proposes candidate trajectories for the agent; a counterfactual critic then suggests edge-case variations consistent with partial observations, prompting the VLM to expand or adjust its hypotheses in the next iteration. This creates a self-improving cycle where the VLM progressively internalizes edge cases from previous rounds, systematically uncovering not only typical behaviors but also rare or borderline maneuvers, ultimately yielding more robust trajectory predictions from minimal sensor data. We validate TRACE on both ground-vehicle simulations and real-world marine autonomous surface vehicles. Experimental results show that our method consistently outperforms standard VLM-driven and purely model-based baselines, capturing a broader range of feasible agent behaviors despite sparse sensing. Evaluation videos and code are available at trace-robotics.github.io.
- Abstract(参考訳): 反応剤の短期的な挙動を予測することは、多くのロボットシナリオにおいて重要であるが、その剤の観察が希少であるか断続的である場合、依然として困難である。
VLM(Vision-Language Models)は、テキストドメイン知識と視覚的手がかりを統合することで、有望な道筋を提供する。
我々の重要な洞察は、反復的で反実的な探索であり、専用のモジュールが提案された各行動仮説を探索し、見落とされうる可能性に対して、明確な軌道として表され、見落とされ、VLMに基づく行動予測を著しく向上させることができるということである。
提案するTRACE(Tree-of- Thought Reasoning And Counterfactual Exploration)は,複数ラウンドにわたる行動仮説を洗練するために,ツリー・オブ・シンクソン生成とドメイン認識フィードバックを結合した推論フレームワークである。
具体的には、VLMはまずエージェントの候補軌跡を提案し、反実的批判者は、部分的な観察と整合したエッジケースのバリエーションを提案し、VLMはその仮説を次のイテレーションで拡張または調整するように促す。
これは、VLMが前回のラウンドから段階的にエッジケースを内包する自己改善サイクルを生み出し、典型的な振る舞いだけでなく、希少または境界線の操作も体系的に発見し、最小限のセンサーデータからより堅牢な軌道予測をもたらす。
我々は,地上車両シミュレーションと実世界海面車両の両面においてTRACEを検証した。
実験結果から,本手法は標準のVLMベースラインと純粋にモデルベースラインを一貫して上回り,スパースセンシングにも拘わらず,幅広いエージェントの挙動を捉えていることがわかった。
評価ビデオとコードはTrace-robotics.github.ioで公開されている。
関連論文リスト
- Traj-Explainer: An Explainable and Robust Multi-modal Trajectory Prediction Approach [12.60529039445456]
複雑な交通環境のナビゲーションはインテリジェントな技術の進歩によって大幅に向上し、自動車の正確な環境認識と軌道予測を可能にした。
既存の研究は、しばしばシナリオエージェントの合同推論を無視し、軌道予測モデルにおける解釈可能性に欠ける。
本研究では, 説明可能な拡散条件に基づく多モード軌道予測トラj-Explainerという, 説明可能性指向の軌道予測モデルが設計されている。
論文 参考訳(メタデータ) (2024-10-22T08:17:33Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Interpretable Long Term Waypoint-Based Trajectory Prediction Model [1.4778851751964937]
軌道予測フレームワークの性能に長期的目標を加えることが及ぼす影響について検討する。
We present a interpretable long term waypoint-driven prediction framework (WayDCM)。
論文 参考訳(メタデータ) (2023-12-11T09:10:22Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Exploring Social Posterior Collapse in Variational Autoencoder for
Interaction Modeling [26.01824780050843]
変分オートエンコーダ(VAE)は多エージェント相互作用モデリングに広く応用されている。
VAEは、エージェントの将来の軌跡を予測する際に、歴史的社会的文脈を無視しやすい。
本稿では,ソーシャルな後部崩壊を検知する新しいスパースグラフアテンションメッセージパッシング層を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:20:58Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Spatio-Temporal Graph Dual-Attention Network for Multi-Agent Prediction
and Tracking [23.608125748229174]
異種エージェントを含む多エージェント軌道予測のための汎用生成ニューラルシステムを提案する。
提案システムは, 軌道予測のための3つのベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-02-18T02:25:35Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。