論文の概要: MADTempo: An Interactive System for Multi-Event Temporal Video Retrieval with Query Augmentation
- arxiv url: http://arxiv.org/abs/2512.12929v1
- Date: Mon, 15 Dec 2025 02:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.508769
- Title: MADTempo: An Interactive System for Multi-Event Temporal Video Retrieval with Query Augmentation
- Title(参考訳): MADTempo:クエリ拡張によるマルチイベントテンポラルビデオ検索のためのインタラクティブシステム
- Authors: Huu-An Vu, Van-Khanh Mai, Trong-Tam Nguyen, Quang-Duc Dam, Tien-Huy Nguyen, Thanh-Huong Le,
- Abstract要約: 我々は,AIO_Trinhが開発したビデオ検索フレームワークMADTempoを紹介した。
我々の時間探索機構は、連続したビデオセグメント間で類似度スコアを集約することにより、事象レベルの連続性をキャプチャする。
Googleイメージ検索ベースのフォールバックモジュールは、外部のWebイメージでクエリ表現を拡張する。
- 参考スコア(独自算出の注目度): 2.819801450768979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of video content across online platforms has accelerated the need for retrieval systems capable of understanding not only isolated visual moments but also the temporal structure of complex events. Existing approaches often fall short in modeling temporal dependencies across multiple events and in handling queries that reference unseen or rare visual concepts. To address these challenges, we introduce MADTempo, a video retrieval framework developed by our team, AIO_Trinh, that unifies temporal search with web-scale visual grounding. Our temporal search mechanism captures event-level continuity by aggregating similarity scores across sequential video segments, enabling coherent retrieval of multi-event queries. Complementarily, a Google Image Search-based fallback module expands query representations with external web imagery, effectively bridging gaps in pretrained visual embeddings and improving robustness against out-of-distribution (OOD) queries. Together, these components advance the temporal rea- soning and generalization capabilities of modern video retrieval systems, paving the way for more semantically aware and adaptive retrieval across large-scale video corpora.
- Abstract(参考訳): オンラインプラットフォーム上での映像コンテンツの急速な拡大は、孤立した視覚モーメントだけでなく、複雑なイベントの時間構造も理解できる検索システムの必要性を加速させてきた。
既存のアプローチは、複数のイベントにまたがる時間的依存関係のモデリングや、目に見えないあるいは稀な視覚的概念を参照するクエリの処理に不足することが多い。
これらの課題に対処するために、我々のチームであるAIO_Trinhが開発したビデオ検索フレームワークであるMADTempoを紹介した。
我々の時間探索機構は、連続的なビデオセグメント間で類似度スコアを集約することにより、イベントレベルの連続性をキャプチャし、マルチイベントクエリのコヒーレント検索を可能にする。
補完的に、Googleイメージ検索ベースのフォールバックモジュールは、外部Webイメージによるクエリ表現を拡張し、トレーニング済みのビジュアル埋め込みのギャップを効果的に埋め、アウト・オブ・ディストリビューション(OOD)クエリに対する堅牢性を改善する。
これらのコンポーネントは共に、現代のビデオ検索システムの時間的レアソーシングと一般化能力を推進し、大規模ビデオコーパスを横断するより意味的に認識され適応的な検索の道を開く。
関連論文リスト
- Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval [0.0]
モーダルな時間的イベント検索フレームワークを提案する。
Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。
システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
論文 参考訳(メタデータ) (2025-12-06T07:46:51Z) - A Lightweight Moment Retrieval System with Global Re-Ranking and Robust Adaptive Bidirectional Temporal Search [3.4271696759611068]
デジタルビデオコンテンツの指数的成長は、モーメントレベルのビデオ検索において重要な課題となっている。
現在の検索システムは、計算の非効率性、時間的文脈制限、動画コンテンツをナビゲートする本質的な複雑さによって制約されている。
論文 参考訳(メタデータ) (2025-04-12T17:49:46Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。