論文の概要: Harnessing Object Grounding for Time-Sensitive Video Understanding
- arxiv url: http://arxiv.org/abs/2509.06335v1
- Date: Mon, 08 Sep 2025 04:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.975947
- Title: Harnessing Object Grounding for Time-Sensitive Video Understanding
- Title(参考訳): 時間知覚的映像理解のための高調波物体のグラウンド化
- Authors: Tz-Ying Wu, Sharath Nittur Sridhar, Subarna Tripathi,
- Abstract要約: 我々は,ビデオ大言語モデル(ビデオ-LLM)の時間感性ビデオ理解能力(TSV)を接地オブジェクト(GO)で改善することを提案する。
GO-Tokenizer(GO-Tokenizer)は、市販のオブジェクト検出器を利用して、小型のオブジェクト情報をオンザフライでエンコードするビデオLLM用の軽量アドオンモジュールである。
- 参考スコア(独自算出の注目度): 13.599316633905355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to improve the time-sensitive video understanding (TSV) capability of video large language models (Video-LLMs) with grounded objects (GO). We hypothesize that TSV tasks can benefit from GO within frames, which is supported by our preliminary experiments on LITA, a state-of-the-art Video-LLM for reasoning temporal localization. While augmenting prompts with textual description of these object annotations improves the performance of LITA, it also introduces extra token length and susceptibility to the noise in object level information. To address this, we propose GO-Tokenizer, a lightweight add-on module for Video-LLMs leveraging off-the-shelf object detectors to encode compact object information on the fly. Experimental results demonstrate that pretraining with GO-Tokenizer outperforms the vanilla Video-LLM and its counterpart utilizing textual description of objects in the prompt. The gain generalizes across different models, datasets and video understanding tasks such as reasoning temporal localization and dense captioning.
- Abstract(参考訳): 我々は,ビデオ大言語モデル(ビデオ-LLM)の時間感性ビデオ理解能力(TSV)を接地オブジェクト(GO)で改善することを提案する。
TSVタスクはフレーム内のGOの恩恵を受けることができると仮定し、時間的ローカライゼーションを推論するための最先端のビデオLLMであるLITAで予備実験を行った。
これらのオブジェクトアノテーションのテキスト記述による拡張プロンプトは、LITAの性能を向上させる一方で、オブジェクトレベルの情報のノイズに対する追加トークン長と感受性も導入する。
そこで本研究では,市販のオブジェクト検出器を利用して,コンパクトなオブジェクト情報をオンザフライでエンコードする,ビデオLLM用軽量アドオンモジュールGO-Tokenizerを提案する。
実験の結果,GO-Tokenizer を用いた事前学習は,Vanilla Video-LLM とそれと比べ,プロンプト内のオブジェクトのテキスト記述を利用する場合よりも優れていた。
ゲインは、時間的ローカライゼーションや密接なキャプションの推論など、さまざまなモデル、データセット、ビデオ理解タスクにまたがって一般化される。
関連論文リスト
- Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - VideoOrion: Tokenizing Object Dynamics in Videos [34.96534298857146]
ビデオ内のキーセマンティック情報を明示的にキャプチャするビデオ大言語モデル(Video Large Language Model: Video-LLM)を提案する。
VideoOrionでは、専門的なビジョンモデルを使用して、検出-セグメンション-トラックパイプラインを通じてオブジェクトのダイナミクスを抽出する。
本手法は,高次元映像データをセマンティックトークンに効率よく圧縮するビデオLLMにおける永続的課題に対処する。
論文 参考訳(メタデータ) (2024-11-25T07:32:02Z) - Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。