論文の概要: FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA
- arxiv url: http://arxiv.org/abs/2502.18536v1
- Date: Tue, 25 Feb 2025 06:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:58.632776
- Title: FilterRAG: Zero-Shot Informed Retrieval-Augmented Generation to Mitigate Hallucinations in VQA
- Title(参考訳): FilterRAG: VQAにおける幻覚を緩和するゼロショットインフォームド検索生成
- Authors: S M Sarwar,
- Abstract要約: FilterRAGは、BLIP-VQAとRetrieval-Augmented Generationを組み合わせた検索拡張フレームワークで、外部知識ソースの回答を根拠にしている。
OK-VQAデータセットで36.5%の精度を達成し、幻覚を減少させる効果を示した。
これらの知見は、現実世界のデプロイメントにおける視覚質問応答システムを改善するために、FilterRAGの可能性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Visual Question Answering requires models to generate accurate answers by integrating visual and textual understanding. However, VQA models still struggle with hallucinations, producing convincing but incorrect answers, particularly in knowledge-driven and Out-of-Distribution scenarios. We introduce FilterRAG, a retrieval-augmented framework that combines BLIP-VQA with Retrieval-Augmented Generation to ground answers in external knowledge sources like Wikipedia and DBpedia. FilterRAG achieves 36.5% accuracy on the OK-VQA dataset, demonstrating its effectiveness in reducing hallucinations and improving robustness in both in-domain and Out-of-Distribution settings. These findings highlight the potential of FilterRAG to improve Visual Question Answering systems for real-world deployment.
- Abstract(参考訳): Visual Question Answeringは、視覚的およびテキスト的理解を統合することによって、正確な回答を生成するモデルを必要とする。
しかしながら、VQAモデルはいまだ幻覚に苦慮しており、特に知識駆動とアウト・オブ・ディストリビューションのシナリオにおいて、説得力はあるが誤った答えを生み出している。
BLIP-VQAとRetrieval-Augmented Generationを組み合わせた検索拡張フレームワークであるFilterRAGを導入する。
FilterRAGはOK-VQAデータセットで36.5%の精度を実現し、幻覚を減らし、ドメイン内およびアウト・オブ・ディストリビューション設定の堅牢性を改善する効果を示した。
これらの知見は、現実世界のデプロイメントにおける視覚質問応答システムを改善するために、FilterRAGの可能性を浮き彫りにした。
関連論文リスト
- DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.87532210660456]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。
クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。
実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文 参考訳(メタデータ) (2025-02-03T08:22:45Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - A Hybrid RAG System with Comprehensive Enhancement on Complex Reasoning [13.112610550392537]
Retrieval-augmented Generation (RAG) は、大規模言語モデルでその精度を高め、外部知識ベースを統合することで幻覚を低減できるフレームワークである。
本稿では,検索品質,拡張推論能力,精巧な数値能力など,総合的な最適化によって強化されたハイブリッドRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-08-09T15:53:55Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。