論文の概要: Temporal Object Captioning for Street Scene Videos from LiDAR Tracks
- arxiv url: http://arxiv.org/abs/2505.16594v1
- Date: Thu, 22 May 2025 12:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.281821
- Title: Temporal Object Captioning for Street Scene Videos from LiDAR Tracks
- Title(参考訳): LiDARトラックからのストリートシーン映像の時間的オブジェクトキャプション
- Authors: Vignesh Gopinathan, Urs Zimmermann, Michael Arnold, Matthias Rottmann,
- Abstract要約: 本稿では,交通参加者の時間動態に着目したLiDARによる自動キャプション手法を提案する。
提案手法はルールベースシステムを用いて,オブジェクトトラックから車線位置や相対運動などの重要な情報を抽出し,続いてテンプレートベースのキャプション生成を行う。
- 参考スコア(独自算出の注目度): 4.299840769087443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning models have seen notable advancements in recent years, especially with regard to their ability to capture temporal information. While many research efforts have focused on architectural advancements, such as temporal attention mechanisms, there remains a notable gap in understanding how models capture and utilize temporal semantics for effective temporal feature extraction, especially in the context of Advanced Driver Assistance Systems. We propose an automated LiDAR-based captioning procedure that focuses on the temporal dynamics of traffic participants. Our approach uses a rule-based system to extract essential details such as lane position and relative motion from object tracks, followed by a template-based caption generation. Our findings show that training SwinBERT, a video captioning model, using only front camera images and supervised with our template-based captions, specifically designed to encapsulate fine-grained temporal behavior, leads to improved temporal understanding consistently across three datasets. In conclusion, our results clearly demonstrate that integrating LiDAR-based caption supervision significantly enhances temporal understanding, effectively addressing and reducing the inherent visual/static biases prevalent in current state-of-the-art model architectures.
- Abstract(参考訳): ビデオキャプションモデルは近年顕著な進歩を遂げている。
時間的注意機構などのアーキテクチャの進歩に多くの研究努力が注がれているが、特にアドバンスト・ドライバー・アシスト・システム(英語版)の文脈において、モデルが時間的特徴抽出のために時間的意味論を捕捉し活用する方法を理解することには、注目すべきギャップが残っている。
本稿では,交通参加者の時間動態に着目したLiDARによる自動キャプション手法を提案する。
提案手法はルールベースシステムを用いて,オブジェクトトラックから車線位置や相対運動などの重要な情報を抽出し,続いてテンプレートベースのキャプション生成を行う。
この結果から,ビデオキャプションモデルであるSwinBERTのトレーニングには,テンプレートベースのキャプションのみを使用し,微粒な時間的挙動をカプセル化するように特別に設計した。
その結果,LiDARをベースとしたキャプションインスペクションの統合は時間的理解を著しく向上させ,現在最先端のモデルアーキテクチャで広く用いられている視覚的・静的バイアスを効果的に解消することを示した。
関連論文リスト
- StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [51.003833566279006]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Balancing long- and short-term dynamics for the modeling of saliency in videos [14.527351636175615]
本稿では,ビデオフレームの連立表現と過去の唾液度情報を学習するためのトランスフォーマーに基づくアプローチを提案する。
本モデルでは,映像中の塩分濃度の動的変動を検出するために,長期的,短期的な情報を埋め込んだ。
論文 参考訳(メタデータ) (2025-04-08T11:09:37Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。