論文の概要: Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion
- arxiv url: http://arxiv.org/abs/2512.12935v1
- Date: Mon, 15 Dec 2025 02:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.511984
- Title: Unified Interactive Multimodal Moment Retrieval via Cascaded Embedding-Reranking and Temporal-Aware Score Fusion
- Title(参考訳): ケースド・エンベディング・リグレードとテンポラル・アウェア・スコア・フュージョンによる統合型マルチモーダルモーメント検索
- Authors: Toan Le Ngo Thanh, Phat Ha Huu, Tan Nguyen Dang Duy, Thong Nguyen Le Minh, Anh Nguyen Nhu Tinh,
- Abstract要約: 本稿では3つの重要な革新を伴う統合マルチモーダルモーダルモーメント検索システムを提案する。
まず、ケース化された二重埋め込みパイプラインがBEIT-3とSigLIPを組み合わせて広帯域検索を行う。
第二に、時間的認識のスコアリング機構は、ビームサーチによる大きな時間的ギャップに指数的減衰ペナルティを適用している。
第3に、エージェント誘導クエリ分解(GPT-4o)は、あいまいなクエリを自動的に解釈する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of video content has created an urgent need for efficient multimodal moment retrieval systems. However, existing approaches face three critical challenges: (1) fixed-weight fusion strategies fail across cross modal noise and ambiguous queries, (2) temporal modeling struggles to capture coherent event sequences while penalizing unrealistic gaps, and (3) systems require manual modality selection, reducing usability. We propose a unified multimodal moment retrieval system with three key innovations. First, a cascaded dual-embedding pipeline combines BEIT-3 and SigLIP for broad retrieval, refined by BLIP-2 based reranking to balance recall and precision. Second, a temporal-aware scoring mechanism applies exponential decay penalties to large temporal gaps via beam search, constructing coherent event sequences rather than isolated frames. Third, Agent-guided query decomposition (GPT-4o) automatically interprets ambiguous queries, decomposes them into modality specific sub-queries (visual/OCR/ASR), and performs adaptive score fusion eliminating manual modality selection. Qualitative analysis demonstrates that our system effectively handles ambiguous queries, retrieves temporally coherent sequences, and dynamically adapts fusion strategies, advancing interactive moment search capabilities.
- Abstract(参考訳): ビデオコンテンツの指数的成長は、効率的なマルチモーダルモーメント検索システムへの緊急なニーズを生み出している。
しかし,従来のアプローチでは,(1)クロスモーダルノイズやあいまいなクエリを横切る固定重畳法,(2)非現実的ギャップをペナル化しながらコヒーレントなイベントシーケンスを捕捉する時間的モデリング,(3)手動のモーダル選択を必要とするシステム,という3つの重要な課題に直面している。
本稿では3つの重要な革新を伴う統合マルチモーダルモーダルモーメント検索システムを提案する。
まず, BEIT-3とSigLIPを組み合わせ, BLIP-2をベースとしたリコールと精度の両立を図る。
第二に、時間的認識のスコアリング機構は、ビームサーチにより大きな時間的ギャップに指数的減衰ペナルティを適用し、孤立フレームではなくコヒーレントなイベントシーケンスを構築する。
第3に、エージェント誘導クエリ分解(GPT-4o)は、不明瞭なクエリを自動的に解釈し、それらをモダリティ固有のサブクエリ(視覚/OCR/ASR)に分解し、手動のモダリティ選択を排除した適応的なスコア融合を実行する。
定性的分析により,本システムはあいまいなクエリを効果的に処理し,時間的コヒーレントなシーケンスを検索し,融合戦略を動的に適用し,インタラクティブなモーメント検索能力を向上することを示した。
関連論文リスト
- Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval [0.0]
モーダルな時間的イベント検索フレームワークを提案する。
Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。
システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
論文 参考訳(メタデータ) (2025-12-06T07:46:51Z) - Multi-Agent Pointer Transformer: Seq-to-Seq Reinforcement Learning for Multi-Vehicle Dynamic Pickup-Delivery Problems [17.3780399150554]
本稿では,シーケンス・ツー・シーケンスに基づくエンドツーエンドの集中型意思決定フレームワークであるMulti-Agent Pointer Transformer(MAPT)を提案する。
MAPTは、古典的な操作研究手法と比較して、性能と計算時間の優位性という点で、既存のベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-21T17:32:10Z) - Re3: Learning to Balance Relevance & Recency for Temporal Information Retrieval [10.939002113975706]
時間情報検索は、現代の検索システムにとって重要な課題であるが未解決の課題である。
Re3は、クエリ対応ゲーティングメカニズムを通じて意味情報と時間情報のバランスをとるフレームワークである。
Re2Benchでは、Re3は最先端の結果を達成し、3つのサブセットすべてにR@1をもたらす。
論文 参考訳(メタデータ) (2025-09-01T09:44:01Z) - Hybrid Deep Searcher: Integrating Parallel and Sequential Search Reasoning [57.78245296980122]
本稿では,自然質問から自動生成されるデータセットであるHDS-QA(Hybrid Deep Search QA)を紹介する。
並列化可能な独立サブクエリ(同時に実行可能)と逐次依存サブクエリ(ステップバイステップの解決を必要とする)を組み合わせたハイブリッドホップ質問を含む。
モデルの名称はHybridDeepSearcherで、複数のベンチマークで最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2025-08-26T15:15:17Z) - Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking [3.5291730624600848]
ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-11T09:36:46Z) - BRATI: Bidirectional Recurrent Attention for Time-Series Imputation [0.14999444543328289]
時系列分析におけるデータの欠落は、ダウンストリームアプリケーションの信頼性に影響を及ぼす、重大な課題を引き起こす。
本稿では,多変量時系列計算のための新しい深層学習モデルであるBRATIを紹介する。
BRATIは時間的依存を処理し、長い時間的水平線と短い時間的水平線をまたいだ特徴相関を処理し、その逆の時間的方向で動作する2つの計算ブロックを利用する。
論文 参考訳(メタデータ) (2025-01-09T17:50:56Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Deep Explicit Duration Switching Models for Time Series [84.33678003781908]
状態依存型と時間依存型の両方のスイッチングダイナミクスを識別できるフレキシブルモデルを提案する。
状態依存スイッチングは、リカレントな状態-スイッチ接続によって実現される。
時間依存スイッチング動作を改善するために、明示的な期間カウント変数が使用される。
論文 参考訳(メタデータ) (2021-10-26T17:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。