論文の概要: Harnessing Object Grounding for Time-Sensitive Video Understanding
- arxiv url: http://arxiv.org/abs/2509.06335v1
- Date: Mon, 08 Sep 2025 04:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.975947
- Title: Harnessing Object Grounding for Time-Sensitive Video Understanding
- Title(参考訳): 時間知覚的映像理解のための高調波物体のグラウンド化
- Authors: Tz-Ying Wu, Sharath Nittur Sridhar, Subarna Tripathi,
- Abstract要約: 我々は,ビデオ大言語モデル(ビデオ-LLM)の時間感性ビデオ理解能力(TSV)を接地オブジェクト(GO)で改善することを提案する。
GO-Tokenizer(GO-Tokenizer)は、市販のオブジェクト検出器を利用して、小型のオブジェクト情報をオンザフライでエンコードするビデオLLM用の軽量アドオンモジュールである。
- 参考スコア(独自算出の注目度): 13.599316633905355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to improve the time-sensitive video understanding (TSV) capability of video large language models (Video-LLMs) with grounded objects (GO). We hypothesize that TSV tasks can benefit from GO within frames, which is supported by our preliminary experiments on LITA, a state-of-the-art Video-LLM for reasoning temporal localization. While augmenting prompts with textual description of these object annotations improves the performance of LITA, it also introduces extra token length and susceptibility to the noise in object level information. To address this, we propose GO-Tokenizer, a lightweight add-on module for Video-LLMs leveraging off-the-shelf object detectors to encode compact object information on the fly. Experimental results demonstrate that pretraining with GO-Tokenizer outperforms the vanilla Video-LLM and its counterpart utilizing textual description of objects in the prompt. The gain generalizes across different models, datasets and video understanding tasks such as reasoning temporal localization and dense captioning.
- Abstract(参考訳): 我々は,ビデオ大言語モデル(ビデオ-LLM)の時間感性ビデオ理解能力(TSV)を接地オブジェクト(GO)で改善することを提案する。
TSVタスクはフレーム内のGOの恩恵を受けることができると仮定し、時間的ローカライゼーションを推論するための最先端のビデオLLMであるLITAで予備実験を行った。
これらのオブジェクトアノテーションのテキスト記述による拡張プロンプトは、LITAの性能を向上させる一方で、オブジェクトレベルの情報のノイズに対する追加トークン長と感受性も導入する。
そこで本研究では,市販のオブジェクト検出器を利用して,コンパクトなオブジェクト情報をオンザフライでエンコードする,ビデオLLM用軽量アドオンモジュールGO-Tokenizerを提案する。
実験の結果,GO-Tokenizer を用いた事前学習は,Vanilla Video-LLM とそれと比べ,プロンプト内のオブジェクトのテキスト記述を利用する場合よりも優れていた。
ゲインは、時間的ローカライゼーションや密接なキャプションの推論など、さまざまなモデル、データセット、ビデオ理解タスクにまたがって一般化される。
関連論文リスト
- Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - Leveraging Vision-Language Models for Open-Vocabulary Instance Segmentation and Tracking [15.551049337773962]
視覚言語モデル(VLM)は視覚的理解に優れるが、しばしば信頼性の高い接地能力と行動可能な推論速度を欠いている。
VLMの生成した構造化記述を用いて、可視オブジェクトのインスタンスを識別し、アプリケーション関連属性を収集し、開語彙検出器に通知し、対応するバウンディングボックスを抽出する。
トラックは、必要に応じて、新しい構造化された記述と検出を生成することで、オンラインで更新することができる。
論文 参考訳(メタデータ) (2025-03-18T20:18:42Z) - VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM [81.15525024145697]
ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は近年, 一般的なビデオ理解において顕著な能力を示した。
しかし、それらは主に全体論的理解に焦点を当て、きめ細かい空間的・時間的詳細を捉えるのに苦労している。
我々は,高精細度空間時間映像理解のためのビデオLLMを実現するために,VideoRefer Suiteを導入した。
論文 参考訳(メタデータ) (2024-12-31T18:56:46Z) - VideoOrion: Tokenizing Object Dynamics in Videos [34.96534298857146]
ビデオ内のキーセマンティック情報を明示的にキャプチャするビデオ大言語モデル(Video Large Language Model: Video-LLM)を提案する。
VideoOrionでは、専門的なビジョンモデルを使用して、検出-セグメンション-トラックパイプラインを通じてオブジェクトのダイナミクスを抽出する。
本手法は,高次元映像データをセマンティックトークンに効率よく圧縮するビデオLLMにおける永続的課題に対処する。
論文 参考訳(メタデータ) (2024-11-25T07:32:02Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning [102.54669633984278]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。