Fugu-MT 論文翻訳(概要): Long-form factuality in large language models

論文の概要: Long-form factuality in large language models

arxiv url: http://arxiv.org/abs/2403.18802v1
Date: Wed, 27 Mar 2024 17:48:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 15:50:03.346988
Title: Long-form factuality in large language models
Title（参考訳）: 大規模言語モデルにおける長期的事実性
Authors: Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le,
Abstract要約: 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。まず最初にGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成します。そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
参考スコア（独自算出の注目度）: 59.33758932113995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at https://github.com/google-deepmind/long-form-factuality.
Abstract（参考訳）: 大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。まずGPT-4を用いて、38のトピックにまたがる何千もの質問からなるプロンプトセットであるLongFactを生成する。そこで我々は,LLMエージェントを,探索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。 SAFEは、LLMを使用して、長文の応答を個々の事実の集合に分解し、検索クエリをGoogle検索に送信し、検索結果で事実がサポートされているかどうかを判定する多段階推論プロセスを用いて、各事実の精度を評価する。さらに,F1スコアを長期的事実性のための集計指標として拡張することを提案する。そこで我々は,応答(精度)におけるサポート対象事実の割合と,ユーザの好む応答長(リコール)を表すハイパーパラメータに対する提供対象事実の割合のバランスをとる。実験により, LLMエージェントが超人格評価を達成できることが実証された。約16k個の個々の事実に基づいて, SAFEはクラウドソーシングされた人称アノテータの72%と一致し, 100個の不一致事例のランダムなサブセットでは, SAFEが76%の確率で勝利した。同時に、SAFEはヒトのアノテーターの20倍以上の安価である。また、LongFactの13の言語モデル(Gemini, GPT, Claude, PaLM-2)をベンチマークし、より大きな言語モデルが一般的により優れた長文の事実性を実現することを発見した。 LongFact、SAFE、およびすべての実験コードはhttps://github.com/google-deepmind/long-form-factualityで入手できる。

関連論文リスト

Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文参考訳（メタデータ） (2026-03-04T15:42:43Z)
LIFEBench: Evaluating Length Instruction Following in Large Language Models [41.637005190608946]
本稿では,大規模言語モデルの長文指示に従う能力を評価するためにLIFEBenchを提案する。 LIFEBenchは英語と中国語の4つのタスクカテゴリにまたがる10,800のインスタンスで構成されている。ほとんどのモデルでは、短い命令を適切に追従するが、一定のしきい値を超えると急激に劣化する。
論文参考訳（メタデータ） (2025-05-22T05:08:27Z)
FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-02T16:03:13Z)
VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation [37.16881685930474]
長い形式のテキストの事実性を評価するための既存のメトリクスは、入力テキストを「アトミッククレーム」に分解し、ウィキペディアのような知識ベースに対して検証する。本稿では、検証可能なコンテンツと検証できないコンテンツの両方を含む様々な長文生成タスクのメトリクスであるVERISCOREを用いてこの問題に対処する。我々はVERISCOREを用いて、複数の長期タスクにわたる16の異なるモデルから世代を評価し、GPT-4oが全体として最高のパフォーマンスモデルであるのに対して、Mixtral-8x22のようなオープンウェイトモデルはギャップを埋めていることを発見した。
論文参考訳（メタデータ） (2024-06-27T15:43:18Z)
One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文参考訳（メタデータ） (2024-06-24T02:03:57Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)
Conversational Factor Information Retrieval Model (ConFIRM) [2.855224352436985]
ConFIRM(Conversational Factor Information Retrieval Method)は、ドメイン固有の検索タスクのための大規模言語モデル(LLM)を微調整する新しい手法である。本研究では、金融セクターにおけるケーススタディを通じて、パーソナライズされたデータを用いてLlama-2-7bモデルを微調整し、ConFIRMの有効性を実証する。結果のモデルでは、ファイナンシャルクエリの分類において91%の精度が達成され、NVIDIA A100 GPU上での平均推論時間は0.61秒であった。
論文参考訳（メタデータ） (2023-10-06T12:31:05Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。