論文の概要: iRAG: Advancing RAG for Videos with an Incremental Approach
- arxiv url: http://arxiv.org/abs/2404.12309v2
- Date: Sat, 17 Aug 2024 15:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 02:58:10.049826
- Title: iRAG: Advancing RAG for Videos with an Incremental Approach
- Title(参考訳): iRAG: インクリメンタルアプローチによるビデオのRAG向上
- Authors: Md Adnan Arefeen, Biplob Debnath, Md Yusuf Sarwar Uddin, Srimat Chakradhar,
- Abstract要約: 大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。
iRAGと呼ばれるインクリメンタルなRAGシステムを提案し、RAGを新たなインクリメンタルなワークフローで拡張し、ビデオデータのインタラクティブなクエリを可能にする。
iRAGは、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートするインクリメンタルワークフローでRAGを拡張する最初のシステムである。
- 参考スコア(独自算出の注目度): 3.486835161875852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems combine the strengths of language generation and information retrieval to power many real-world applications like chatbots. Use of RAG for understanding of videos is appealing but there are two critical limitations. One-time, upfront conversion of all content in large corpus of videos into text descriptions entails high processing times. Also, not all information in the rich video data is typically captured in the text descriptions. Since user queries are not known apriori, developing a system for video to text conversion and interactive querying of video data is challenging. To address these limitations, we propose an incremental RAG system called iRAG, which augments RAG with a novel incremental workflow to enable interactive querying of a large corpus of videos. Unlike traditional RAG, iRAG quickly indexes large repositories of videos, and in the incremental workflow, it uses the index to opportunistically extract more details from select portions of the videos to retrieve context relevant to an interactive user query. Such an incremental workflow avoids long video to text conversion times, and overcomes information loss issues due to conversion of video to text, by doing on-demand query-specific extraction of details in video data. This ensures high quality of responses to interactive user queries that are often not known apriori. To the best of our knowledge, iRAG is the first system to augment RAG with an incremental workflow to support efficient interactive querying of a large corpus of videos. Experimental results on real-world datasets demonstrate 23x to 25x faster video to text ingestion, while ensuring that latency and quality of responses to interactive user queries is comparable to responses from a traditional RAG where all video data is converted to text upfront before any user querying.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、言語生成と情報検索の強みを組み合わせて、チャットボットのような現実世界の多くのアプリケーションに電力を供給する。
ビデオの理解にRAGを使うことは魅力的だが、2つの重要な制限がある。
大規模なビデオコーパス内のすべてのコンテンツをテキスト記述に一回、前もって変換することは、高い処理時間を必要とする。
また、リッチなビデオデータの全ての情報が典型的にはテキスト記述に記録されるわけではない。
ユーザクエリはアプリオリではないため、ビデオからテキストへの変換やビデオデータの対話的クエリを行うシステムの開発は困難である。
これらの制約に対処するため,ビデオコーパスの対話的クエリを可能にするために,新しいインクリメンタルワークフローでRAGを拡張するiRAGと呼ばれるインクリメンタルRAGシステムを提案する。
従来のRAGとは異なり、iRAGはビデオの大規模なリポジトリを素早くインデクシングし、インクリメンタルワークフローでは、インデクシングを使用してビデオのセレクション部分からより多くの詳細を抽出し、インタラクティブなユーザクエリに関連するコンテキストを検索する。
このようなインクリメンタルなワークフローは、長いビデオからテキストへの変換時間を回避し、ビデオデータのオンデマンドクエリ固有の詳細抽出を行うことで、ビデオからテキストへの変換による情報損失問題を克服する。
これにより、しばしばAprioriを知らない対話型ユーザクエリに対する高い品質の応答が保証される。
我々の知る限り、iRAGはRAGをインクリメンタルワークフローで拡張する最初のシステムであり、大規模なビデオコーパスの効率的なインタラクティブクエリをサポートする。
実世界のデータセットの実験結果は、テキストの取り込みが23倍から25倍速く、対話型ユーザクエリに対する応答のレイテンシと品質が、ユーザのクエリの前にすべてのビデオデータがテキストに変換される従来のRAGの応答に匹敵することを保証する。
関連論文リスト
- Semantic-Aware Representation of Multi-Modal Data for Data Ingress: A Literature Review [1.8590097948961688]
LLM(Large Language Models)のような生成AIは、テキスト、画像、オーディオ、ビデオなどのマルチモーダルデータを処理するために広く採用されている。
このデータを効率的に管理することは、データ量が2倍にならないため、業界倍の課題となっている。
本研究では,モノモーダル,マルチモーダル,クロスモーダルデータから埋め込みを抽出するセマンティック・アウェア技術に着目した。
論文 参考訳(メタデータ) (2024-07-17T09:49:11Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [13.638439488923671]
検索拡張生成(RAG)は大規模言語モデル(LLM)の能力を向上させる
既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。
本稿では,このギャップをシンプルかつ強力なアイデアで解決する新しい手法として,MRAG(Multi-Head RAG)を提案する。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - ERATTA: Extreme RAG for Table To Answers with Large Language Models [1.3318204310917532]
検索拡張現実(RAG)を備えた大規模言語モデル(LLM)は、スケーラブルな生成AIソリューションに最適な選択肢である。
本研究では,データ認証,ユーザクエリルーティング,データ検索,カスタムプロンプトなどを実現するために,複数のLCMを起動する独自のLCMシステムを提案する。
1つのプロンプトはユーザ間認証を管理し、3つのプロンプトでルーティングし、データをフェッチし、カスタマイズ可能な自然言語応答を生成する。
論文 参考訳(メタデータ) (2024-05-07T02:49:59Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - METEOR: Learning Memory and Time Efficient Representations from
Multi-modal Data Streams [19.22829945777267]
本稿では,Memory and Time Efficient Online Representation Learning(METEOR)について紹介する。
従来のメモリ集約型埋め込みと比較して,METEORはメモリ使用量を約80%削減しつつ,表現の質を保っていることを示す。
論文 参考訳(メタデータ) (2020-07-23T08:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。