論文の概要: TrackTeller: Temporal Multimodal 3D Grounding for Behavior-Dependent Object References
- arxiv url: http://arxiv.org/abs/2512.21641v1
- Date: Thu, 25 Dec 2025 12:02:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:07:50.650626
- Title: TrackTeller: Temporal Multimodal 3D Grounding for Behavior-Dependent Object References
- Title(参考訳): TrackTeller: 行動依存オブジェクト参照のための時間的マルチモーダル3Dグラウンド
- Authors: Jiahong Yu, Ziqi Wang, Hailiang Zhao, Wei Zhai, Xueqiang Yan, Shuiguang Deng,
- Abstract要約: 時間的言語に基づく3Dグラウンド化について検討し,その目的は,多フレーム観測を利用して,現在のフレーム内の参照対象を特定することである。
本稿では,LDAR-image fusion,言語条件付きデコード,時間的推論を統合アーキテクチャで統合した時間的マルチモーダルグラウンドディングフレームワークであるTrackTellerを提案する。
- 参考スコア(独自算出の注目度): 33.32268865872059
- License:
- Abstract: Understanding natural-language references to objects in dynamic 3D driving scenes is essential for interactive autonomous systems. In practice, many referring expressions describe targets through recent motion or short-term interactions, which cannot be resolved from static appearance or geometry alone. We study temporal language-based 3D grounding, where the objective is to identify the referred object in the current frame by leveraging multi-frame observations. We propose TrackTeller, a temporal multimodal grounding framework that integrates LiDAR-image fusion, language-conditioned decoding, and temporal reasoning in a unified architecture. TrackTeller constructs a shared UniScene representation aligned with textual semantics, generates language-aware 3D proposals, and refines grounding decisions using motion history and short-term dynamics. Experiments on the NuPrompt benchmark demonstrate that TrackTeller consistently improves language-grounded tracking performance, outperforming strong baselines with a 70% relative improvement in Average Multi-Object Tracking Accuracy and a 3.15-3.4 times reduction in False Alarm Frequency.
- Abstract(参考訳): 動的3D運転シーンにおけるオブジェクトへの自然言語参照を理解することは、インタラクティブな自律システムにとって不可欠である。
実際には、多くの参照表現は、最近の動きや短期的な相互作用を通じてターゲットを記述するが、静的な外観や幾何学だけでは解決できない。
時間的言語に基づく3Dグラウンド化について検討し,その目的は,多フレーム観測を利用して,現在のフレーム内の参照対象を特定することである。
本稿では,LDAR-image fusion,言語条件付きデコード,時間的推論を統合アーキテクチャで統合した時間的マルチモーダルグラウンドディングフレームワークであるTrackTellerを提案する。
TrackTellerは、テキストセマンティクスと整合した共有UniScene表現を構築し、言語対応の3D提案を生成し、モーション履歴と短期力学を用いた基礎決定を洗練する。
NuPromptベンチマークの実験では、TrackTellerは言語ベースのトラッキング性能を一貫して改善し、平均的マルチオブジェクト追跡精度が70%向上し、False Alarmの周波数が3.15-3.4倍低下した。
関連論文リスト
- Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes [10.139461308573336]
IRef-VLAは、11.5K以上のスキャンされた3D部屋からなる参照グラウンドタスクのための、世界で最大のデータセットである。
我々は,ロバストでインタラクティブなナビゲーションシステムの開発を支援する3Dシーン理解のためのリソースの提供を目指している。
論文 参考訳(メタデータ) (2025-03-20T16:16:10Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。