論文の概要: iRAG: An Incremental Retrieval Augmented Generation System for Videos
- arxiv url: http://arxiv.org/abs/2404.12309v1
- Date: Thu, 18 Apr 2024 16:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:02:22.863015
- Title: iRAG: An Incremental Retrieval Augmented Generation System for Videos
- Title(参考訳): iRAG: ビデオ検索のための増分検索生成システム
- Authors: Md Adnan Arefeen, Biplob Debnath, Md Yusuf Sarwar Uddin, Srimat Chakradhar,
- Abstract要約: 大規模マルチモーダルデータの対話的クエリを可能にするために,新たなインクリメンタルワークフローによりRAGを増強するiRAGを提案する。
iRAGはRAGをインクリメンタルワークフローで拡張する最初のシステムであり、大規模な実世界のマルチモーダルデータの効率的な対話型クエリをサポートする。
- 参考スコア(独自算出の注目度): 3.486835161875852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval augmented generation (RAG) systems combine the strengths of language generation and information retrieval to power many real-world applications like chatbots. Use of RAG for combined understanding of multimodal data such as text, images and videos is appealing but two critical limitations exist: one-time, upfront capture of all content in large multimodal data as text descriptions entails high processing times, and not all information in the rich multimodal data is typically in the text descriptions. Since the user queries are not known apriori, developing a system for multimodal to text conversion and interactive querying of multimodal data is challenging. To address these limitations, we propose iRAG, which augments RAG with a novel incremental workflow to enable interactive querying of large corpus of multimodal data. Unlike traditional RAG, iRAG quickly indexes large repositories of multimodal data, and in the incremental workflow, it uses the index to opportunistically extract more details from select portions of the multimodal data to retrieve context relevant to an interactive user query. Such an incremental workflow avoids long multimodal to text conversion times, overcomes information loss issues by doing on-demand query-specific extraction of details in multimodal data, and ensures high quality of responses to interactive user queries that are often not known apriori. To the best of our knowledge, iRAG is the first system to augment RAG with an incremental workflow to support efficient interactive querying of large, real-world multimodal data. Experimental results on real-world long videos demonstrate 23x to 25x faster video to text ingestion, while ensuring that quality of responses to interactive user queries is comparable to responses from a traditional RAG where all video data is converted to text upfront before any querying.
- Abstract(参考訳): Retrieval augmented generation (RAG) システムは、言語生成と情報検索の強みを組み合わせて、チャットボットのような現実世界の多くのアプリケーションに電力を供給する。
テキスト、画像、ビデオなどのマルチモーダルデータの統合理解にRAGを用いることは魅力的であるが、テキスト記述が高処理時間を必要とするため、大きなマルチモーダルデータ内のすべてのコンテンツを1回、前もってキャプチャする、という2つの重要な制限がある。
ユーザクエリはアプリオリではないため,マルチモーダルからテキストへの変換やマルチモーダルデータの対話的クエリを行うシステムの開発は困難である。
これらの制約に対処するため、我々はRAGを新しいインクリメンタルワークフローで拡張し、大規模なマルチモーダルデータの対話的クエリを可能にするiRAGを提案する。
従来のRAGとは異なり、iRAGはマルチモーダルデータの大規模なリポジトリを素早くインデクシングし、インクリメンタルワークフローでは、このインデックスを使用してマルチモーダルデータの選択部分からさらに詳細を抽出し、インタラクティブなユーザクエリに関連するコンテキストを検索する。
このようなインクリメンタルワークフローは、テキスト変換時間の長いマルチモーダルを回避し、マルチモーダルデータの詳細をオンデマンドでクエリ固有に抽出することで、情報の損失問題を克服する。
我々の知る限り、iRAGはRAGをインクリメンタルワークフローで拡張する最初のシステムであり、大規模な実世界のマルチモーダルデータの効率的な対話型クエリをサポートする。
実世界の長いビデオの実験結果は、テキストの取り込みが23倍から25倍速く、対話的なユーザクエリに対する応答の質は、すべてのビデオデータがクエリの前にテキストに変換される従来のRAGの応答に匹敵する。
関連論文リスト
- GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Retrieval Augmented Generation over Large Video Libraries [0.0]
本稿では,相互運用可能なアーキテクチャによるVLQA(Video Library Question Answering)の課題を紹介する。
本稿では,大規模言語モデル(LLM)を用いて検索クエリを生成し,関連ビデオモーメントを検索するシステムを提案する。
回答生成モジュールは、ユーザクエリとメタデータを統合して、特定のビデオタイムスタンプでレスポンスを生成する。
論文 参考訳(メタデータ) (2024-06-21T07:52:01Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Zero-shot Audio Topic Reranking using Large Language Models [42.774019015099704]
実例によるマルチモーダルビデオ検索 (MVSE) では, ビデオクリップを情報検索の問合せ語として利用する。
本研究の目的は,この高速アーカイブ検索による性能損失を,再ランク付け手法を検証することによって補償することである。
パブリックなビデオアーカイブであるBBC Rewind corpusでトピックベースの検索のパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-09-14T11:13:36Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。