論文の概要: FaaF: Facts as a Function for the evaluation of generated text
- arxiv url: http://arxiv.org/abs/2403.03888v2
- Date: Mon, 8 Apr 2024 14:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 00:47:03.718210
- Title: FaaF: Facts as a Function for the evaluation of generated text
- Title(参考訳): FaaF: 生成されたテキストの評価のための関数としてのファクト
- Authors: Vasileios Katranidis, Gabor Barany,
- Abstract要約: ファクト・アズ・ア・ファンクション(Facts as a Function, FaaF)は,大規模言語モデル(LM)の関数呼び出し機能を活用した事実検証タスクである。
FaaFは、テキスト中のサポート対象の事実を識別する能力を大幅に向上すると同時に、プロンプトベースの手法に比べて効率とコストを大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for accurate and efficient verification of information in texts generated by large language models (LMs) is at an all-time high, but remains unresolved. Recent efforts have focused on extracting and verifying atomic facts from these texts via prompting LM evaluators. However, we demonstrate that this method of prompting is unreliable when faced with incomplete or inaccurate reference information. We introduce Facts as a Function (FaaF), a new approach to the fact verification task that leverages the function-calling capabilities of LMs. FaaF significantly enhances the ability of LMs to identify unsupported facts in texts, while also improving efficiency and significantly lowering costs compared to prompt-based methods. Additionally, we propose a framework for evaluating factual recall in Retrieval Augmented Generation (RAG) systems, which we employ to compare prompt-based and FaaF methods using various LMs under challenging conditions.
- Abstract(参考訳): 大規模言語モデル(LM)が生成するテキスト中の情報の正確かつ効率的な検証の要求は、最高水準にあるが、未解決のままである。
近年の取り組みは、これらのテキストからLM評価器を介して原子事実を抽出し、検証することに焦点を当てている。
しかし、不完全な参照情報や不正確な参照情報に直面すると、このプロンプトが信頼できないことを示す。
本稿では,ファクト・アズ・ア・ファンクション(Facts as a Function,FaaF)を紹介する。
FaaFは、テキスト中のサポート対象の事実を識別する能力を大幅に向上すると同時に、プロンプトベースの手法に比べて効率とコストを大幅に削減する。
さらに,各種LMを用いたプロンプトベース法とFaaF法を困難な条件下で比較するために,検索用拡張生成システム(RAG)のファクトリコール評価フレームワークを提案する。
関連論文リスト
- RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Factual Consistency Evaluation of Summarisation in the Era of Large
Language Models [38.8292168447796]
既存の事実整合性メトリクスは、そのパフォーマンス、効率、説明可能性によって制約されます。
大規模言語モデル(LLM)の最近の進歩は,テキスト評価において顕著な可能性を示している。
論文 参考訳(メタデータ) (2024-02-21T12:35:19Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Improving Factual Consistency for Knowledge-Grounded Dialogue Systems
via Knowledge Enhancement and Alignment [77.56326872997407]
事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。
トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,事実表現能力を効率的に改善するための2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-12T14:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。