論文の概要: FATHOMS-RAG: A Framework for the Assessment of Thinking and Observation in Multimodal Systems that use Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.08945v1
- Date: Fri, 10 Oct 2025 02:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.023184
- Title: FATHOMS-RAG: A Framework for the Assessment of Thinking and Observation in Multimodal Systems that use Retrieval Augmented Generation
- Title(参考訳): FATHOMS-RAG:Retrieval Augmented Generationを用いたマルチモーダルシステムにおける思考と観察の評価フレームワーク
- Authors: Samuel Hildebrand, Curtis Taylor, Sean Oesch, James M Ghawaly Jr, Amir Sadovnik, Ryan Shivers, Brandon Schreiber, Kevin Kurian,
- Abstract要約: 我々は、RAGパイプライン全体を評価するために設計されたベンチマークを導入する。
パイプラインの摂食能力を評価するために設計された93の質問のデータセットを提示する。
クローズドソースパイプラインは、正確性と幻覚の指標の両方で、オープンソースパイプラインを著しく上回ります。
- 参考スコア(独自算出の注目度): 1.6174863821322776
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) has emerged as a promising paradigm for improving factual accuracy in large language models (LLMs). We introduce a benchmark designed to evaluate RAG pipelines as a whole, evaluating a pipeline's ability to ingest, retrieve, and reason about several modalities of information, differentiating it from existing benchmarks that focus on particular aspects such as retrieval. We present (1) a small, human-created dataset of 93 questions designed to evaluate a pipeline's ability to ingest textual data, tables, images, and data spread across these modalities in one or more documents; (2) a phrase-level recall metric for correctness; (3) a nearest-neighbor embedding classifier to identify potential pipeline hallucinations; (4) a comparative evaluation of 2 pipelines built with open-source retrieval mechanisms and 4 closed-source foundation models; and (5) a third-party human evaluation of the alignment of our correctness and hallucination metrics. We find that closed-source pipelines significantly outperform open-source pipelines in both correctness and hallucination metrics, with wider performance gaps in questions relying on multimodal and cross-document information. Human evaluation of our metrics showed average agreement of 4.62 for correctness and 4.53 for hallucination detection on a 1-5 Likert scale (5 indicating "strongly agree").
- Abstract(参考訳): 大規模言語モデル(LLM)における現実的精度向上のパラダイムとして,検索拡張世代(RAG)が登場している。
我々は、RAGパイプライン全体を評価するために設計されたベンチマークを導入し、パイプラインがいくつかの情報モダリティを取り込み、取得し、推論する能力を評価し、検索のような特定の側面に焦点を当てた既存のベンチマークと区別する。
本研究は,(1)テキストデータ,表,画像,データ等を1つ以上の文書に散在させるパイプラインの能力を評価するために設計された,93の質問からなる小型で人為的なデータセット,(2)正当性に関するフレーズレベルのリコールメトリック,(3)潜在的なパイプライン幻覚を識別するための最寄りの埋め込み分類器,(4)オープンソース制御機構と4つのクローズドソース基盤モデルを用いて構築された2つのパイプラインの比較評価,(5)正当性および幻覚の指標の整合性を評価する第三者による評価について述べる。
クローズドソースパイプラインは、正確性と幻覚の指標の両方において、オープンソースパイプラインを著しく上回り、マルチモーダルおよびクロスドキュメント情報に依存する問題において、より広範なパフォーマンスのギャップがあることがわかった。
測定値の平均一致は4.62、幻覚検出は4.53であった(5は「強く一致している」)。
関連論文リスト
- Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation [5.555479009357263]
EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。
1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
論文 参考訳(メタデータ) (2025-09-26T16:42:43Z) - DiFaR: Enhancing Multimodal Misinformation Detection with Diverse, Factual, and Relevant Rationales [17.889203383750864]
DiFaRは、誤情報検出を強化するために、多種多様で、事実的で、関連する有理性を生み出す。
4つの人気のあるベンチマークの実験では、DiFaRは4つのベースラインカテゴリを最大5.9%上回っている。
自動測定と人的評価の両方で、DiFaRは3次元全てで合理的な品質を著しく改善することを確認した。
論文 参考訳(メタデータ) (2025-08-14T08:32:31Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion [78.76867266561537]
評価プロセスは、予測された真理のカテゴリと基底的真理のカテゴリの類似性を考慮せずに、クローズドセットのメトリクスに大きく依存している。
この問題に対処するため、まず2つのカテゴリー語間の11の類似度の測定を行った。
我々は,3つのオープン語彙セグメンテーションタスクに適した,オープンmIoU,オープンAP,オープンPQという新しい評価指標を設計した。
論文 参考訳(メタデータ) (2023-11-06T18:59:01Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。