Fugu-MT 論文翻訳(概要): VISA: Retrieval Augmented Generation with Visual Source Attribution

論文の概要: VISA: Retrieval Augmented Generation with Visual Source Attribution

arxiv url: http://arxiv.org/abs/2412.14457v1
Date: Thu, 19 Dec 2024 02:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.954757
Title: VISA: Retrieval Augmented Generation with Visual Source Attribution
Title（参考訳）: VISA: ビジュアルソース属性による検索拡張生成
Authors: Xueguang Ma, Shengyao Zhuang, Bevan Koopman, Guido Zuccon, Wenhu Chen, Jimmy Lin,
Abstract要約: RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
参考スコア（独自算出の注目度）: 100.78278689901593
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generation with source attribution is important for enhancing the verifiability of retrieval-augmented generation (RAG) systems. However, existing approaches in RAG primarily link generated content to document-level references, making it challenging for users to locate evidence among multiple content-rich retrieved documents. To address this challenge, we propose Retrieval-Augmented Generation with Visual Source Attribution (VISA), a novel approach that combines answer generation with visual source attribution. Leveraging large vision-language models (VLMs), VISA identifies the evidence and highlights the exact regions that support the generated answers with bounding boxes in the retrieved document screenshots. To evaluate its effectiveness, we curated two datasets: Wiki-VISA, based on crawled Wikipedia webpage screenshots, and Paper-VISA, derived from PubLayNet and tailored to the medical domain. Experimental results demonstrate the effectiveness of VISA for visual source attribution on documents' original look, as well as highlighting the challenges for improvement. Code, data, and model checkpoints will be released.
Abstract（参考訳）: ソース属性による生成は、検索強化生成(RAG)システムの妥当性を高めるために重要である。しかし、RAGの既存のアプローチは主に生成されたコンテンツを文書レベルの参照にリンクしているため、ユーザーが複数のコンテンツに富んだ文書の証拠を見つけることは困難である。この課題に対処するために,視覚的ソース属性と回答生成を組み合わせた新しいアプローチである視覚的ソース属性付き検索型生成(VISA)を提案する。大規模な視覚言語モデル(VLM)を活用して、VISAはエビデンスを特定し、検索した文書スクリーンショットのバウンディングボックスで生成された回答をサポートする正確な領域をハイライトする。本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。実験の結果,文書の本来の外観に対する視覚的帰属に対するVISAの有効性が示され,改善の課題も浮き彫りにされた。コード、データ、モデルチェックポイントがリリースされる。

関連論文リスト

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文参考訳（メタデータ） (2025-04-14T01:50:33Z)
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文参考訳（メタデータ） (2025-02-25T09:26:12Z)
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。 5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文参考訳（メタデータ） (2024-12-16T16:03:25Z)
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文参考訳（メタデータ） (2024-12-14T06:24:55Z)
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文参考訳（メタデータ） (2024-10-14T15:04:18Z)
A Survey of Generative Information Retrieval [25.1249210843116]
Generative Retrieval (GR) は、情報検索における新たなパラダイムであり、従来のクエリ処理やドキュメントの再ランクを必要とせずに、生成モデルを利用してクエリを関連するドキュメント識別子(DocID)にマップする。この調査はGRの総合的な概要を提供し、主要な開発、索引付けと検索戦略、課題を強調している。
論文参考訳（メタデータ） (2024-06-03T10:59:33Z)
Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文参考訳（メタデータ） (2024-01-29T04:36:39Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。