論文の概要: TARA: Simple and Efficient Time Aware Retrieval Adaptation of MLLMs for Video Understanding
- arxiv url: http://arxiv.org/abs/2512.13511v1
- Date: Mon, 15 Dec 2025 16:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.759614
- Title: TARA: Simple and Efficient Time Aware Retrieval Adaptation of MLLMs for Video Understanding
- Title(参考訳): TARA:ビデオ理解のためのMLLMの簡易かつ効率的な検索適応
- Authors: Piyush Bagad, Andrew Zisserman,
- Abstract要約: TARA(Time Aware Retrieval Adaptation)は、ビデオデータを全く使用せずに、タイムアウェアなビデオテキスト埋め込みモデルにMultimodal LLM(MLLM)を適用する。
TARAは、時間的に逆の(キラルな)アクションをハードネガティブとしてベンチマークで、既存のすべてのビデオテキストモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 54.66784646111214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our objective is to build a general time-aware video-text embedding model for retrieval. To that end, we propose a simple and efficient recipe, dubbed TARA (Time Aware Retrieval Adaptation), to adapt Multimodal LLMs (MLLMs) to a time-aware video-text embedding model without using any video data at all. For evaluating time-awareness in retrieval, we propose a new benchmark with temporally opposite (chiral) actions as hard negatives and curated splits for chiral and non-chiral actions. We show that TARA outperforms all existing video-text models on this chiral benchmark while also achieving strong results on standard benchmarks. Furthermore, we discover additional benefits of TARA beyond time-awareness: (i) TARA embeddings are negation-aware as shown in NegBench benchmark that evaluates negation in video retrieval, (ii) TARA achieves state of the art performance on verb and adverb understanding in videos. Overall, TARA yields a strong, versatile, time-aware video-text embedding model with state of the art zero-shot performance.
- Abstract(参考訳): 我々の目的は、検索のための一般的なタイムアウェアなビデオテキスト埋め込みモデルを構築することである。
そこで我々は,TARA (Time Aware Retrieval Adaptation) と呼ばれるシンプルで効率的なレシピを提案する。
検索における時間認識性を評価するために,時間的逆作用(キラル)を強陰性とし,キラル動作と非キラル動作の分解を補正した新しいベンチマークを提案する。
TARAは、このカイラルベンチマークで既存のビデオテキストモデルよりも優れており、標準ベンチマークでは強力な結果が得られている。
さらに、TARAのさらなるメリットは、タイムアウェアネスを超えて発見する。
(i)ビデオ検索における否定を評価するNegBenchベンチマークで示されているように、TARA埋め込みは否定対応である。
(II)TARAはビデオにおける動詞と副詞の理解における最先端のパフォーマンスを達成する。
全体として、TARAは、最先端のゼロショットパフォーマンスを備えた強力で汎用的でタイムアウェアなビデオテキスト埋め込みモデルを提供する。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Reversed in Time: A Novel Temporal-Emphasized Benchmark for Cross-Modal Video-Text Retrieval [49.44777976302792]
クロスモーダル検索(例えば、画像テキスト、ビデオテキスト)は、情報検索およびマルチモーダル視覚言語理解分野において重要なタスクである。
本稿では,新しい時間強調ビデオテキスト検索データセットRTimeを紹介する。
私たちのRTimeデータセットは、現在1ビデオにつき10キャプションの21Kビデオで構成されており、合計で約122時間です。
論文 参考訳(メタデータ) (2024-12-26T11:32:00Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。