論文の概要: Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12371v1
- Date: Sat, 15 Nov 2025 22:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.99843
- Title: Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models
- Title(参考訳): デジタル双対ビデオ表現と大規模言語モデルによるテキスト・ビデオ検索
- Authors: Yiqing Shen, Chenxiao Fan, Chenjia Li, Mathias Unberath,
- Abstract要約: 本稿では,従来の検索を推論による暗黙的なクエリ処理に拡張するパラダイムである推論テキスト・ビデオ検索を紹介する。
視覚言語モデルを直接依存するのではなく,映像コンテンツをデジタルツインとして表現することを提案する。
我々は、手動で135本の動画と1000本の動画のより難しいバージョンで暗黙的なクエリを作成した447のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 8.053559085313443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of text-to-video retrieval is to search large databases for relevant videos based on text queries. Existing methods have progressed to handling explicit queries where the visual content of interest is described explicitly; however, they fail with implicit queries where identifying videos relevant to the query requires reasoning. We introduce reasoning text-to-video retrieval, a paradigm that extends traditional retrieval to process implicit queries through reasoning while providing object-level grounding masks that identify which entities satisfy the query conditions. Instead of relying on vision-language models directly, we propose representing video content as digital twins, i.e., structured scene representations that decompose salient objects through specialist vision models. This approach is beneficial because it enables large language models to reason directly over long-horizon video content without visual token compression. Specifically, our two-stage framework first performs compositional alignment between decomposed sub-queries and digital twin representations for candidate identification, then applies large language model-based reasoning with just-in-time refinement that invokes additional specialist models to address information gaps. We construct a benchmark of 447 manually created implicit queries with 135 videos (ReasonT2VBench-135) and another more challenging version of 1000 videos (ReasonT2VBench-1000). Our method achieves 81.2% R@1 on ReasonT2VBench-135, outperforming the strongest baseline by greater than 50 percentage points, and maintains 81.7% R@1 on the extended configuration while establishing state-of-the-art results in three conventional benchmarks (MSR-VTT, MSVD, and VATEX).
- Abstract(参考訳): テキスト・ツー・ビデオ検索の目標は、テキスト・クエリーに基づいて、関連ビデオの巨大なデータベースを検索することである。
既存の手法では、興味のある視覚的内容が明示的に記述された明示的なクエリを扱うようになったが、クエリに関連するビデオを特定するには推論が必要である。
提案手法では,従来の検索を拡張して,推論を通じて暗黙的なクエリを処理するとともに,どのエンティティがクエリ条件を満たすのかを識別するオブジェクトレベルのグラウンドマスクを提供する。
視覚言語モデルに直接依存するのではなく、映像コンテンツをデジタル双生児として表現すること、すなわち、専門的な視覚モデルを通して有能な物体を分解する構成されたシーン表現を提案する。
大規模な言語モデルでは、視覚的トークン圧縮を使わずに、長い水平ビデオコンテンツを直接推論できるため、このアプローチは有益である。
具体的には、まず分割されたサブクエリとデジタルツイン表現の合成アライメントを行い、次にジャスト・イン・タイム・リファインメントによる大規模言語モデルに基づく推論を適用し、情報ギャップに対処する。
135ビデオ(ReasonT2VBench-135)と1000ビデオ(ReasonT2VBench-1000)のより難しいバージョン(ReasonT2VBench-1000)を手動で作成した447のベンチマークを構築した。
提案手法は,ReasonT2VBench-135上で81.2%のR@1を達成し,最強のベースラインを50ポイント以上上回り,拡張構成では81.7%のR@1を維持しながら,従来の3つのベンチマーク(MSR-VTT,MSVD,VATEX)で最新結果を確立した。
関連論文リスト
- REVEAL: Relation-based Video Representation Learning for Video-Question-Answering [14.867263291053968]
本稿では,リレーションに基づくrEpresentAtion Learning(REVEAL)を提案する。
バイテンポラルなシーングラフにインスパイアされたビデオシーケンスは、言語埋め込みを通して、時間とともに(サブジェクト・プレディケート・オブジェクト)の形で、関係三重項の集合としてエンコードする。
提案手法を,NeXT-QA,Intent-QA,STAR,VLEP,TVQAの5つのベンチマークで評価した。
論文 参考訳(メタデータ) (2025-04-07T19:54:04Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Query-aware Long Video Localization and Relation Discrimination for Deep
Video Understanding [15.697251303126874]
Deep Video Understanding (DVU) Challengeは、マルチモーダル抽出、融合、分析の境界を推し進めることを目的としている。
本稿では,画像言語事前学習モデルを利用して,長時間の動画のローカライゼーションと関係の識別を行うクエリアウェア手法を提案する。
本手法は,映画レベルの問合せの2つのグループにおいて,第1位と第4位を達成した。
論文 参考訳(メタデータ) (2023-10-19T13:26:02Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。