論文の概要: RAPID: Retrieval-Augmented Parallel Inference Drafting for Text-Based Video Event Retrieval
- arxiv url: http://arxiv.org/abs/2501.16303v1
- Date: Mon, 27 Jan 2025 18:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:01.819149
- Title: RAPID: Retrieval-Augmented Parallel Inference Drafting for Text-Based Video Event Retrieval
- Title(参考訳): RAPID:テキストベースのビデオイベント検索のための検索拡張並列推論ドラフト
- Authors: Long Nguyen, Huy Nguyen, Bao Khuu, Huy Luu, Huy Le, Tuan Nguyen, Tho Quan,
- Abstract要約: テキストベースのビデオイベント検索のための既存の手法は、コンテキスト情報の重要な役割を見越して、オブジェクトレベルの記述に重点を置いている。
本稿では,Large Language Models(LLMs)の進歩と,ユーザクエリのセマンティックな修正にアクティベートベースの学習を活用するRAPIDという新しいシステムを提案する。
我々のシステムは、Ho Chi Minh City AI Challenge 2024に参加することによって、スピードと精度の両面で検証され、300時間以上のビデオからイベントを取り出すことに成功した。
- 参考スコア(独自算出の注目度): 2.9927319356868436
- License:
- Abstract: Retrieving events from videos using text queries has become increasingly challenging due to the rapid growth of multimedia content. Existing methods for text-based video event retrieval often focus heavily on object-level descriptions, overlooking the crucial role of contextual information. This limitation is especially apparent when queries lack sufficient context, such as missing location details or ambiguous background elements. To address these challenges, we propose a novel system called RAPID (Retrieval-Augmented Parallel Inference Drafting), which leverages advancements in Large Language Models (LLMs) and prompt-based learning to semantically correct and enrich user queries with relevant contextual information. These enriched queries are then processed through parallel retrieval, followed by an evaluation step to select the most relevant results based on their alignment with the original query. Through extensive experiments on our custom-developed dataset, we demonstrate that RAPID significantly outperforms traditional retrieval methods, particularly for contextually incomplete queries. Our system was validated for both speed and accuracy through participation in the Ho Chi Minh City AI Challenge 2024, where it successfully retrieved events from over 300 hours of video. Further evaluation comparing RAPID with the baseline proposed by the competition organizers demonstrated its superior effectiveness, highlighting the strength and robustness of our approach.
- Abstract(参考訳): テキストクエリによるビデオからのイベントの検索は、マルチメディアコンテンツの急速な成長により、ますます困難になっている。
既存のテキストベースのビデオイベント検索手法は、コンテキスト情報の重要な役割を見越して、オブジェクトレベルの記述に重点を置いていることが多い。
この制限は、クエリに場所の詳細や曖昧な背景要素など十分なコンテキストがない場合に特に顕著である。
これらの課題に対処するために,Large Language Models (LLMs) の進歩と,関連するコンテキスト情報を用いてユーザクエリのセマンティックな修正と強化を行う,RAPID (Retrieval-Augmented Parallel Inference Drafting) という新しいシステムを提案する。
これらのリッチなクエリは、並列検索によって処理され、続いて評価ステップにより、元のクエリとのアライメントに基づいて、最も関連性の高い結果を選択する。
本稿では,RAPIDが従来の検索手法,特に文脈的に不完全なクエリよりも優れていることを示す。
我々のシステムは、Ho Chi Minh City AI Challenge 2024に参加することによって、スピードと精度の両面で検証され、300時間以上のビデオからイベントを取り出すことに成功した。
さらに,RAPIDと競技主催者の提案したベースラインを比較して評価した結果,提案手法の強みと頑健さを強調した。
関連論文リスト
- Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Event-driven Real-time Retrieval in Web Search [15.235255100530496]
本稿では,リアルタイム検索の意図を表すイベント情報を用いてクエリを拡張する。
マルチタスクトレーニングにより、イベント表現のためのモデルの能力をさらに強化する。
提案手法は既存の最先端のベースライン法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-12-01T06:30:31Z) - Improving Query-Focused Meeting Summarization with Query-Relevant
Knowledge [71.14873115781366]
本稿では,その課題に対処するため,知識認識要約器(KAS)と呼ばれる知識強化2段階のフレームワークを提案する。
最初の段階では、クエリ関連セグメント抽出を改善するために知識認識スコアを導入します。
第2段階では,クエリ関連知識を要約生成に取り入れる。
論文 参考訳(メタデータ) (2023-09-05T10:26:02Z) - Part2Whole: Iteratively Enrich Detail for Cross-Modal Retrieval with
Partial Query [25.398090300086302]
本稿では,この問題に対処する対話型検索フレームワークPart2Wholeを提案する。
Interactive Retrieval Agentは、初期クエリを洗練するための最適なポリシーを構築するために訓練される。
テキスト画像データセット以外の人手による注釈データを必要としない弱教師付き強化学習法を提案する。
論文 参考訳(メタデータ) (2021-03-02T11:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。