論文の概要: U-CESE: Unified Clip-based Event Search Engine for AI Challenge HCMC 2025
- arxiv url: http://arxiv.org/abs/2605.23274v1
- Date: Fri, 22 May 2026 06:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.224762
- Title: U-CESE: Unified Clip-based Event Search Engine for AI Challenge HCMC 2025
- Title(参考訳): U-CESE: AIチャレンジHCMC 2025用の統一Clipベースのイベントサーチエンジン
- Authors: Duc-Nhuan Le, Hoang-Phuc Nguyen, Thanh-Duy Lam, Minh-Nhut Dang, Minh-Hoang Le,
- Abstract要約: U-CESEは、様々なビデオソースにわたるマルチモーダルイベント検索のための統一Clipベースのイベントサーチエンジンである。
中心となるコンポーネントはUnified Clipping Algorithmであり、別個のクリッピングアルゴリズムを1つの効率的なパイプラインにマージする。
U-CESEは、大規模なマルチモーダルイベント検索において、堅牢で、一貫性があり、効率的なパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 0.34040662197740373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving events from large-scale video datasets is challenging due to complex temporal, spatial, and multimodal information. This paper presents U-CESE, our solution for the AI Challenge HCMC 2025, a Unified Clip-based Event Search Engine for multimodal event retrieval across diverse video sources. Building on CESE, U-CESE integrates its three modules into a single cohesive framework, ensuring consistent processing and retrieval across query types. A core component is the Unified Clipping Algorithm, which merges separate clipping algorithms into one efficient pipeline. To handle large-scale data, we propose DAKE, a lightweight, training-free keyframe extraction method using JPEG file size variations to identify significant scene changes. Finally, we introduce ReCap, a temporally consistent captioning framework inspired by Recurrent Neural Network, generating detailed and context-aware textual descriptions. Experiments show that U-CESE delivers robust, consistent, and efficient performance in large-scale multimodal event retrieval.
- Abstract(参考訳): 大規模なビデオデータセットからイベントを取得することは、複雑な時間的、空間的、マルチモーダルな情報のために困難である。
本稿では,AI Challenge HCMC 2025(Unified Clip-based Event Search Engine)のソリューションであるU-CESEについて述べる。
CESE上に構築されたU-CESEは、その3つのモジュールを単一の凝集フレームワークに統合し、クエリタイプ間の一貫性のある処理と検索を保証する。
中心となるコンポーネントはUnified Clipping Algorithmであり、別個のクリッピングアルゴリズムを1つの効率的なパイプラインにマージする。
大規模データを扱うために,JPEGファイルサイズ変化を用いた軽量でトレーニング不要なキーフレーム抽出手法DAKEを提案する。
最後に、リカレントニューラルネットワークにインスパイアされた時間的に一貫したキャプションフレームワークであるReCapを紹介し、詳細かつ文脈対応のテキスト記述を生成する。
U-CESEは、大規模なマルチモーダルイベント検索において、堅牢で、一貫性があり、効率的なパフォーマンスを提供する。
関連論文リスト
- Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis [5.6902579988042135]
広く使われている3つのデータセットを対象とした14の最先端検索手法を評価した。
我々は,長さ,明瞭度,意味カテゴリー,アクション対シーンバランスなどのキャプション特性を分析した。
論文 参考訳(メタデータ) (2026-03-07T12:28:35Z) - OmniRet: Efficient and High-Fidelity Omni Modality Retrieval [51.80205678389465]
OmniRetは,テキスト,視覚,音声の3つの重要なモダリティにまたがる複雑なクエリを処理可能な,最初の検索モデルである。
提案モデルでは,コンポジションクエリ,音声,ビデオ検索のタスクにおいて,最先端のモデルを用いたオンパーパフォーマンスを実現しつつ,大幅な改善を実現している。
論文 参考訳(メタデータ) (2026-03-02T17:19:55Z) - Enhanced Multimodal Video Retrieval System: Integrating Query Expansion and Cross-modal Temporal Event Retrieval [0.0]
モーダルな時間的イベント検索フレームワークを提案する。
Kernel Density Mixture Thresholding (KDE-GMM)アルゴリズムが用いられている。
システムには、ユーザクエリを洗練および拡張するために、大きな言語モデル(LLM)が組み込まれている。
論文 参考訳(メタデータ) (2025-12-06T07:46:51Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression [0.6345523830122168]
従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。
我々は、AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮で融合させることにより、この問題に対処するフレームワークを提案した。
我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。
論文 参考訳(メタデータ) (2024-04-16T02:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。