Fugu-MT 論文翻訳(概要): FaaF: Facts as a Function for the evaluation of RAG systems

論文の概要: FaaF: Facts as a Function for the evaluation of RAG systems

arxiv url: http://arxiv.org/abs/2403.03888v1
Date: Wed, 6 Mar 2024 17:48:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 14:02:01.495303
Title: FaaF: Facts as a Function for the evaluation of RAG systems
Title（参考訳）: FaaF:RAGシステム評価機能としてのFacts
Authors: Vasileios Katranidis and Gabor Barany
Abstract要約: 本稿では,ファクト・アズ・ア・ファンクション(Facts as a Function,FaaF)を紹介する。 FaaFは、不完全な情報を含むテキスト中のサポート対象の事実を識別する能力を大幅に改善する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Factual recall from a reference source is crucial for evaluating the performance of Retrieval Augmented Generation (RAG) systems, as it directly probes into the quality of both retrieval and generation. However, it still remains a challenge to perform this evaluation reliably and efficiently. Recent work has focused on fact verification via prompting language model (LM) evaluators, however we demonstrate that these methods are unreliable in the presence of incomplete or inaccurate information. We introduce Facts as a Function (FaaF), a new approach to fact verification that utilizes the function calling abilities of LMs and a framework for RAG factual recall evaluation. FaaF substantially improves the ability of LMs to identify unsupported facts in text with incomplete information whilst improving efficiency and lowering cost by several times, compared to prompt-based approaches.
Abstract（参考訳）: 参照ソースからのファクトリコールは、検索と生成の両方の品質を直接調査するため、検索拡張生成(RAG)システムの性能を評価するために重要である。しかし、この評価を確実かつ効率的に行うことは依然として課題である。最近の研究は、言語モデル(LM)評価器による事実検証に重点を置いているが、不完全または不正確な情報が存在する場合、これらの手法は信頼できない。ファクト・アズ・ア・ファンクション(faaf)、lmsの機能呼び出し能力を利用するファクト検証の新しいアプローチ、ラグ・ファクトリコール評価のためのフレームワークを紹介する。 FaaFは、プロンプトベースのアプローチと比較して、効率とコストを数倍削減しながら、不完全な情報でLMがサポート対象の事実を識別する能力を大幅に改善する。

関連論文リスト

Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation [46.697788643450785]
大規模言語モデル(LLM)は、不完全または選択的に鍵情報を省略する出力を生成する。センシティブなドメインでは、そのような欠落は、事実的不正確さによって引き起こされるものと同等の重大な害をもたらす可能性がある。
論文参考訳（メタデータ） (2025-10-09T08:22:24Z)
Exploring the Generalizability of Factual Hallucination Mitigation via Enhancing Precise Knowledge Utilization [49.95746521480879]
PKUE(Precise Knowledge utilization Enhancement, 精密知識利用促進)を導入し, 正確かつ単純な事実質問に対する自己生成応答のモデルを微調整する。大規模な実験により、PKUEはLLM全体の性能を著しく改善することが示された。
論文参考訳（メタデータ） (2025-02-26T13:34:52Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文参考訳（メタデータ） (2024-10-31T00:18:05Z)
Augmenting the Veracity and Explanations of Complex Fact Checking via Iterative Self-Revision with LLMs [10.449165630417522]
中国ではCHEF-EGとTrendFactという2つの複雑なファクトチェックデータセットを構築している。これらのデータセットは、健康、政治、社会などの分野で複雑な事実を含む。妥当性と説明の相互フィードバックを行うための統合フレームワークFactISRを提案する。
論文参考訳（メタデータ） (2024-10-19T15:25:19Z)
FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-02T16:03:13Z)
VERA: Validation and Enhancement for Retrieval Augmented systems [0.0]
textbfValidation and textbfEnhancement for textbfRetrieval textbfAugmented system を提案する。 VERAは、外部検索が必要なかどうかを最初にチェックし、検索したコンテキストの関連性と冗長性を評価し、非必要情報の除去のために精査する評価器-既存のLCMを使用している。
論文参考訳（メタデータ） (2024-09-18T16:10:47Z)
Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments [23.639378586798884]
コントラスト引数の合成による検索拡張現実事実検証を提案する。提案手法は,関連文書を証拠として効果的に検索し,様々な視点から議論を評価する。 RAFTS は GPT 法よりはるかに小さい 7B LLM で優れた性能を発揮する。
論文参考訳（メタデータ） (2024-06-14T08:13:34Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 LLaMA2の性能を平均9.39%向上させる。
論文参考訳（メタデータ） (2024-02-28T08:24:38Z)
Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文参考訳（メタデータ） (2024-02-12T04:32:33Z)
Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。これらの幻覚は、従来の方法による検出が困難である。 LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文参考訳（メタデータ） (2023-10-30T08:40:16Z)
Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文参考訳（メタデータ） (2023-10-19T15:40:00Z)
Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment [77.56326872997407]
事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,事実表現能力を効率的に改善するための2つの方法を検討した。
論文参考訳（メタデータ） (2023-10-12T14:44:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。