論文の概要: Hierarchical Indexing with Knowledge Enrichment for Multilingual Video Corpus Retrieval
- arxiv url: http://arxiv.org/abs/2510.09553v1
- Date: Fri, 10 Oct 2025 17:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.487255
- Title: Hierarchical Indexing with Knowledge Enrichment for Multilingual Video Corpus Retrieval
- Title(参考訳): 多言語ビデオコーパス検索のための知識豊か化による階層的索引付け
- Authors: Yu Wang, Tianhao Tan, Yifei Wang,
- Abstract要約: 我々は,NLPCC-2025 M4IVQAチャレンジにおいて,Multilingual Video Corpus Retrieval (mVCR)タスクに取り組む。
ビデオ字幕は意味的に一貫性のあるチャンクに分割され、簡潔な知識グラフ(KG)の事実に富む。
クエリ時に、粗い木々探索プルーネは関係のない枝であり、上位のチャンクだけが軽量な大言語モデル(LLM)によって再描画される。
- 参考スコア(独自算出の注目度): 10.895207313110427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving relevant instructional videos from multilingual medical archives is crucial for answering complex, multi-hop questions across language boundaries. However, existing systems either compress hour-long videos into coarse embeddings or incur prohibitive costs for fine-grained matching. We tackle the Multilingual Video Corpus Retrieval (mVCR) task in the NLPCC-2025 M4IVQA challenge with a multi-stage framework that integrates multilingual semantics, domain terminology, and efficient long-form processing. Video subtitles are divided into semantically coherent chunks, enriched with concise knowledge-graph (KG) facts, and organized into a hierarchical tree whose node embeddings are generated by a language-agnostic multilingual encoder. At query time, the same encoder embeds the input question; a coarse-to-fine tree search prunes irrelevant branches, and only the top-ranked chunks are re-scored by a lightweight large language model (LLM). This design avoids exhaustive cross-encoder scoring while preserving chunk-level precision. Experiments on the mVCR test set demonstrate state-of-the-art performance, and ablation studies confirm the complementary contributions of KG enrichment, hierarchical indexing, and targeted LLM re-ranking. The proposed method offers an accurate and scalable solution for multilingual retrieval in specialized medical video collections.
- Abstract(参考訳): 多言語医療アーカイブから関連する教育ビデオを取得することは、言語の境界を越えて複雑なマルチホップ質問に答えるのに不可欠である。
しかし、既存のシステムは、1時間分のビデオを粗い埋め込みに圧縮するか、きめ細かいマッチングの禁止費用を請求する。
NLPCC-2025 M4IVQA課題におけるマルチリンガルビデオコーパス検索(mVCR)タスクに,多言語セマンティクス,ドメイン用語,効率的なロングフォーム処理を統合した多段階フレームワークを用いて取り組む。
ビデオ字幕は意味的に一貫性のあるチャンクに分割され、簡潔な知識グラフ(KG)の事実に富み、言語に依存しない多言語エンコーダによってノード埋め込みが生成される階層木に編成される。
クエリ時には、同じエンコーダが入力質問を埋め込む。粗い木探索プルーネは関係のない枝で、上位のチャンクだけが軽量な大言語モデル(LLM)によって再描画される。
この設計は、チャンクレベルの精度を維持しながら、徹底的なクロスエンコーダスコアを回避する。
mVCRテストセットの実験は、最先端の性能を示し、アブレーション研究は、KGエンリッチメント、階層的インデクシング、ターゲットLLMの再ランク付けの相補的寄与を確認した。
提案手法は,専門的な医用ビデオコレクションにおいて,多言語検索のための高精度でスケーラブルなソリューションを提供する。
関連論文リスト
- Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
長文理解は,ビデオデータの冗長度が高く,クエリ非関連情報の豊富さによって複雑になる。
我々は,LLM推論のためのクエリ適応的かつ階層的なビデオ表現を構築する,トレーニング不要なフレームワークであるVideoTreeを提案する。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。