論文の概要: iRAG: Advancing RAG for Videos with an Incremental Approach
- arxiv url: http://arxiv.org/abs/2404.12309v2
- Date: Sat, 17 Aug 2024 15:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:58:10.049826
- Title: iRAG: Advancing RAG for Videos with an Incremental Approach
- Title(参考訳): iRAG: インクリメンタルアプローチによるビデオのRAG向上
- Authors: Md Adnan Arefeen, Biplob Debnath, Md Yusuf Sarwar Uddin, Srimat Chakradhar,
- Abstract要約: 大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。
iRAGと呼ばれるインクリメンタルなRAGシステムを提案し、RAGを新たなインクリメンタルなワークフローで拡張し、ビデオデータのインタラクティブなクエリを可能にする。
iRAGは、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートするインクリメンタルワークフローでRAGを拡張する最初のシステムである。
- 参考スコア(独自算出の注目度): 3.486835161875852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems combine the strengths of language generation and information retrieval to power many real-world applications like chatbots. Use of RAG for understanding of videos is appealing but there are two critical limitations. One-time, upfront conversion of all content in large corpus of videos into text descriptions entails high processing times. Also, not all information in the rich video data is typically captured in the text descriptions. Since user queries are not known apriori, developing a system for video to text conversion and interactive querying of video data is challenging. To address these limitations, we propose an incremental RAG system called iRAG, which augments RAG with a novel incremental workflow to enable interactive querying of a large corpus of videos. Unlike traditional RAG, iRAG quickly indexes large repositories of videos, and in the incremental workflow, it uses the index to opportunistically extract more details from select portions of the videos to retrieve context relevant to an interactive user query. Such an incremental workflow avoids long video to text conversion times, and overcomes information loss issues due to conversion of video to text, by doing on-demand query-specific extraction of details in video data. This ensures high quality of responses to interactive user queries that are often not known apriori. To the best of our knowledge, iRAG is the first system to augment RAG with an incremental workflow to support efficient interactive querying of a large corpus of videos. Experimental results on real-world datasets demonstrate 23x to 25x faster video to text ingestion, while ensuring that latency and quality of responses to interactive user queries is comparable to responses from a traditional RAG where all video data is converted to text upfront before any user querying.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、言語生成と情報検索の強みを組み合わせて、チャットボットのような現実世界の多くのアプリケーションに電力を供給する。
ビデオの理解にRAGを使うことは魅力的だが、2つの重要な制限がある。
大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。
また、リッチなビデオデータの全ての情報が典型的にはテキスト記述に記録されるわけではない。
ユーザクエリはアプリオリではないため、ビデオからテキストへの変換やビデオデータの対話的クエリを行うシステムの開発は困難である。
これらの制約に対処するため,ビデオコーパスの対話的クエリを可能にするために,新しいインクリメンタルワークフローでRAGを拡張するiRAGと呼ばれるインクリメンタルRAGシステムを提案する。
従来のRAGとは異なり、iRAGはビデオの大規模なリポジトリを素早くインデクシングし、インクリメンタルワークフローでは、インデクシングを使用してビデオのセレクション部分からより多くの詳細を抽出し、インタラクティブなユーザクエリに関連するコンテキストを検索する。
このようなインクリメンタルなワークフローは、長いビデオからテキストへの変換時間を回避し、ビデオデータのオンデマンドクエリ固有の詳細抽出を行うことで、ビデオからテキストへの変換による情報損失問題を克服する。
これにより、しばしばAprioriを知らない対話型ユーザクエリに対する高い品質の応答が保証される。
我々の知る限り、iRAGはRAGをインクリメンタルワークフローで拡張する最初のシステムであり、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートする。
実世界のデータセットの実験結果は、テキストの取り込みが23倍から25倍速く、対話型ユーザクエリに対する応答のレイテンシと品質が、ユーザのクエリの前にすべてのビデオデータがテキストに変換される従来のRAGの応答に匹敵することを保証する。
関連論文リスト
- GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Retrieval Augmented Generation over Large Video Libraries [0.0]
本稿では,相互運用可能なアーキテクチャによるVLQA(Video Library Question Answering)の課題を紹介する。
本稿では,大規模言語モデル(LLM)を用いて検索クエリを生成し,関連ビデオモーメントを検索するシステムを提案する。
回答生成モジュールは、ユーザクエリとメタデータを統合して、特定のビデオタイムスタンプでレスポンスを生成する。
論文 参考訳(メタデータ) (2024-06-21T07:52:01Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。