論文の概要: FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality
- arxiv url: http://arxiv.org/abs/2508.00109v1
- Date: Thu, 31 Jul 2025 19:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.637315
- Title: FACTORY: A Challenging Human-Verified Prompt Set for Long-Form Factuality
- Title(参考訳): FACTORY: 長期的なファクチュアリティのための人間認証プロンプトセット
- Authors: Mingda Chen, Yang Li, Xilun Chen, Adina Williams, Gargi Ghosh, Scott Yih,
- Abstract要約: 長期的事実性評価は、ショートプロンプトに対する正確で包括的な応答を生成するモデルの能力を評価する。
既存のベンチマークは人間の検証を欠くことが多く、潜在的な品質問題を引き起こす。
大規模な人間認証プロンプトセットであるFactoryを紹介します。
本研究では、ファクトリと既存のデータセットを用いて、6つの最先端言語モデルに対して人間による評価を行う。
- 参考スコア(独自算出の注目度): 32.38561307927049
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long-form factuality evaluation assesses the ability of models to generate accurate, comprehensive responses to short prompts. Existing benchmarks often lack human verification, leading to potential quality issues. To address this limitation, we introduce FACTORY, a large-scale, human-verified prompt set. Developed using a model-in-the-loop approach and refined by humans, FACTORY includes challenging prompts that are fact-seeking, answerable, and unambiguous. We conduct human evaluations on 6 state-of-the-art language models using FACTORY and existing datasets. Our results show that FACTORY is a challenging benchmark: approximately 40% of the claims made in the responses of SOTA models are not factual, compared to only 10% for other datasets. Our analysis identifies the strengths of FACTORY over prior benchmarks, emphasizing its reliability and the necessity for models to reason across long-tailed facts.
- Abstract(参考訳): 長期的事実性評価は、ショートプロンプトに対する正確で包括的な応答を生成するモデルの能力を評価する。
既存のベンチマークは人間の検証を欠くことが多く、潜在的な品質問題を引き起こす。
この制限に対処するために、大規模な人間認証プロンプトセットであるFACTORYを導入する。
モデル・イン・ザ・ループ・アプローチを用いて開発され、人間によって洗練され、FACTORYは事実を探究し、回答しやすく、曖昧なプロンプトを含む。
FACTORYと既存のデータセットを用いて、6つの最先端言語モデル上で人間による評価を行う。
FACTORYは,SOTAモデルの応答におけるクレームの約40%は,他のデータセットの10%に過ぎず,現実的ではない。
本分析では,従来のベンチマークよりもFACTORYの長所を明らかにし,その信頼性と長期にわたる事象をモデル化するモデルの必要性を強調した。
関連論文リスト
- Face the Facts! Evaluating RAG-based Fact-checking Pipelines in Realistic Settings [14.355271969637139]
この作業は、Retrieval-Augmented Generationパラダイムに基づいた自動ファクトチェックのための現在の最先端パイプラインのいくつかの制約を取り上げる。
我々のゴールは、より現実的なシナリオの下で、予測の生成のためのRAGベースのメソッドをベンチマークすることです。
論文 参考訳(メタデータ) (2024-12-19T18:57:11Z) - LoGU: Long-form Generation with Uncertainty Expressions [49.76417603761989]
不確実性を伴う長文生成(LoGU)の課題について紹介する。
不確実性抑制と不確実性誤認の2つの主要な課題を特定します。
当社のフレームワークでは,原子的クレームに基づく不確実性を改善するため,分割・分散戦略を採用している。
提案手法が精度を向上し,幻覚を低減し,応答の包括性を維持できることを示す。
論文 参考訳(メタデータ) (2024-10-18T09:15:35Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning
of Large Language Models [0.0]
CRASS (counterfactual reasoning Assessment) データセットと,疑わしい反事実条件を利用したベンチマークを導入する。
我々は、データセットの設計とベンチマーク、および、クラウド検証された人間のベースラインに対するスコアをサポートするAPIを提示する。
論文 参考訳(メタデータ) (2021-12-22T15:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。