論文の概要: Long-form factuality in large language models
- arxiv url: http://arxiv.org/abs/2403.18802v1
- Date: Wed, 27 Mar 2024 17:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:50:03.346988
- Title: Long-form factuality in large language models
- Title(参考訳): 大規模言語モデルにおける長期的事実性
- Authors: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
まず最初にGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成します。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
- 参考スコア(独自算出の注目度): 59.33758932113995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
まずGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成する。
そこで我々は,LLMエージェントを,探索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
SAFEは、LLMを使用して、長文の応答を個々の事実の集合に分解し、検索クエリをGoogle検索に送信し、検索結果で事実がサポートされているかどうかを判定する多段階推論プロセスを用いて、各事実の精度を評価する。
さらに,F1スコアを長期的事実性のための集計指標として拡張することを提案する。
そこで我々は,応答(精度)におけるサポート対象事実の割合と,ユーザの好む応答長(リコール)を表すハイパーパラメータに対する提供対象事実の割合のバランスをとる。
実験により, LLMエージェントが超人格評価を達成できることが実証された。約16k個の個々の事実に基づいて, SAFEはクラウドソーシングされた人称アノテータの72%と一致し, 100個の不一致事例のランダムなサブセットでは, SAFEが76%の確率で勝利した。
同時に、SAFEはヒトのアノテーターの20倍以上の安価である。
また、LongFactの13の言語モデル(Gemini, GPT, Claude, PaLM-2)をベンチマークし、より大きな言語モデルが一般的により優れた長文の事実性を実現することを発見した。
LongFact、SAFE、およびすべての実験コードはhttps://github.com/google-deepmind/long-form-factualityで入手できる。
関連論文リスト
- PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language
Models for Medical Visual Question Answering [13.788947412193467]
MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表す。
近年,医療用視覚質問応答(Med-VQA)タスクを解くための生成タスクとして,MLLMのフリーフォーム回答への適応について検討している。
本稿では,Med-VQAアプリケーションに適したMLLMを微調整するためのパラメータ効率のよいフレームワークを提案し,それを公開ベンチマークデータセット上で実証的に検証する。
論文 参考訳(メタデータ) (2024-01-05T13:22:12Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。