論文の概要: Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2506.10202v1
- Date: Wed, 11 Jun 2025 21:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.47279
- Title: Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval
- Title(参考訳): Q2E: ゼロショット多言語テキスト・ビデオ検索のためのクエリ・ツー・イベント分解
- Authors: Shubhashis Roy Dipta, Francis Ferraro,
- Abstract要約: 最近のアプローチでは、LLM(Large-Language Models)とVLM(Vision-Language Models)からのパラメトリック知識の抽出と活用に顕著な習熟性を示している。
ゼロショット多言語テキスト・ビデオ検索のためのクエリ・ツー・イベント分解手法Q2Eを提案する。
- 参考スコア(独自算出の注目度): 9.230429417848393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches have shown impressive proficiency in extracting and leveraging parametric knowledge from Large-Language Models (LLMs) and Vision-Language Models (VLMs). In this work, we consider how we can improve the identification and retrieval of videos related to complex real-world events by automatically extracting latent parametric knowledge about those events. We present Q2E: a Query-to-Event decomposition method for zero-shot multilingual text-to-video retrieval, adaptable across datasets, domains, LLMs, or VLMs. Our approach demonstrates that we can enhance the understanding of otherwise overly simplified human queries by decomposing the query using the knowledge embedded in LLMs and VLMs. We additionally show how to apply our approach to both visual and speech-based inputs. To combine this varied multimodal knowledge, we adopt entropy-based fusion scoring for zero-shot fusion. Through evaluations on two diverse datasets and multiple retrieval metrics, we demonstrate that Q2E outperforms several state-of-the-art baselines. Our evaluation also shows that integrating audio information can significantly improve text-to-video retrieval. We have released code and data for future research.
- Abstract(参考訳): 近年のアプローチでは、LLM(Large-Language Models)とVLM(Vision-Language Models)からパラメトリック知識を抽出し活用する能力が顕著である。
本研究では,これらの事象に関する潜在パラメトリック知識を自動的に抽出することで,複雑な実世界の出来事に関連する映像の識別と検索を改善する方法について考察する。
Q2E: データベース,ドメイン,LLM,VLM間で適応可能な,ゼロショット多言語テキスト・ビデオ検索のためのクエリ・ツー・イベント分解手法を提案する。
提案手法は,LLMやVLMに埋め込まれた知識を用いてクエリを分解することで,過度に単純化された人間のクエリの理解を高めることができることを示す。
また,視覚と音声の両方にアプローチを適用する方法について述べる。
様々なマルチモーダル知識を組み合わせるために、ゼロショット核融合のためのエントロピーに基づく核融合スコアを採用する。
2つの多様なデータセットと複数の検索指標の評価を通じて、Q2Eがいくつかの最先端ベースラインを上回っていることを示す。
また,音声情報の統合により,テキスト・ビデオ検索の精度が向上することを示す。
将来の研究のためのコードとデータをリリースしました。
関連論文リスト
- MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。