Fugu-MT 論文翻訳(概要): AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

論文の概要: AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2603.07989v1
Date: Mon, 09 Mar 2026 05:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.588508
Title: AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models
Title（参考訳）: AutoTraces:マルチモーダル大言語モデルによる自動回帰軌道予測
Authors: Teng Wang, Yanting Lu, Ruize Wang,
Abstract要約: AutoTracesは、ヒューム言語環境におけるロボット軌道予測のための自動回帰視覚軌道モデルである。鍵となる革新は軌跡トークン化スキームであり、これはポイントトークンを持つウェイポイントをカテゴリマーカーとして表現し、ウェイポイント数値を対応するポイント埋め込みとして符号化する。
参考スコア（独自算出の注目度）: 5.085937845977223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present AutoTraces, an autoregressive vision-language-trajectory model for robot trajectory forecasting in humam-populated environments, which harnesses the inherent reasoning capabilities of large language models (LLMs) to model complex human behaviors. In contrast to prior works that rely solely on textual representations, our key innovation lies in a novel trajectory tokenization scheme, which represents waypoints with point tokens as categorical and positional markers while encoding waypoint numerical values as corresponding point embeddings, seamlessly integrated into the LLM's space through a lightweight encoder-decoder architecture. This design preserves the LLM's native autoregressive generation mechanism while extending it to physical coordinate spaces, facilitates modeling of long-term interactions in trajectory data. We further introduce an automated chain-of-thought (CoT) generation mechanism that leverages a multimodal LLM to infer spatio-temporal relationships from visual observations and trajectory data, eliminating reliance on manual annotation. Through a two-stage training strategy, our AutoTraces achieves SOTA forecasting accuracy, particularly in long-horizon prediction, while exhibiting strong cross-scene generalization and supporting flexible-length forecasting.
Abstract（参考訳）: 本稿では,人間の複雑な振る舞いをモデル化するために,大規模言語モデル(LLM)の固有推論能力を利用する,ヒューム人口環境下でのロボット軌道予測のための自動回帰視覚言語軌道モデルであるAutoTracesを提案する。テキスト表現にのみ依存する以前の研究とは対照的に、私たちの重要な革新は、ポイントトークンを持つウェイポイントをカテゴリ的および位置的マーカーとして表現し、ウェイポイント数値を対応するポイント埋め込みとして符号化し、軽量エンコーダ・デコーダアーキテクチャを通じてLLM空間にシームレスに統合する、新しいトラジェクトリトークン化スキームにある。この設計は、LLMのネイティブな自己回帰生成機構を物理座標空間に拡張し、軌道データにおける長期的相互作用のモデリングを容易にする。さらに、マルチモーダルLLMを利用して、視覚観測や軌跡データから時空間関係を推定し、手動アノテーションへの依存をなくす自動チェーン・オブ・シント(CoT)生成機構を導入する。 2段階のトレーニング戦略により,SoTA予測精度,特に長距離予測において,強いクロスシーンの一般化とフレキシブル長予測のサポートを実現した。

関連論文リスト

Wireless Traffic Prediction with Large Language Model [54.07581399989292]
TIDESは、無線トラフィック予測のための空間時間相関をキャプチャする新しいフレームワークである。 TIDESは過剰なトレーニングオーバーヘッドを発生させることなく、ドメイン固有のパターンへの効率的な適応を実現する。この結果から,将来の6Gシステムにおいて,空間認識をLCMベースの予測器に統合することが,スケーラブルでインテリジェントなネットワーク管理の鍵であることが示唆された。
論文参考訳（メタデータ） (2025-12-19T04:47:40Z)
FSDAM: Few-Shot Driving Attention Modeling via Vision-Language Coupling [5.609178055761294]
本稿では,100の注釈付き例で共同注意予測とキャプション生成を実現するフレームワークであるFSDAMを提案する。 FSDAMは、注意予測における競合性能を達成し、コヒーレントでコンテキストを考慮した説明を生成する。本研究は,効果的な注意条件付き生成が限定的な監督によって達成可能であることを示し,説明可能な運転注意システムの実用的展開の可能性を示した。
論文参考訳（メタデータ） (2025-11-16T17:50:30Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
Vision-LLMs for Spatiotemporal Traffic Forecasting [14.700408329373998]
大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
論文参考訳（メタデータ） (2025-10-13T11:15:56Z)
Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。 STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文参考訳（メタデータ） (2025-05-18T07:39:17Z)
Spatial-Temporal Large Language Model for Traffic Prediction [21.69991612610926]
交通予測のための時空間大言語モデル(ST-LLM)を提案する。 ST-LLMでは,各位置の時間ステップをトークンとして定義し,空間的位置とグローバルな時間的パターンを学習するための空間的時間的埋め込みを設計する。実トラフィックデータセットの実験において、ST-LLMは最先端のモデルより優れた空間時空間学習器である。
論文参考訳（メタデータ） (2024-01-18T17:03:59Z)
Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文参考訳（メタデータ） (2023-12-07T18:53:27Z)
JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文参考訳（メタデータ） (2023-11-05T18:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。