論文の概要: Measuring short-form factuality in large language models
- arxiv url: http://arxiv.org/abs/2411.04368v1
- Date: Thu, 07 Nov 2024 01:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:10.516538
- Title: Measuring short-form factuality in large language models
- Title(参考訳): 大規模言語モデルにおける短い形式的事実性の測定
- Authors: Jason Wei, Nguyen Karina, Hyung Won Chung, Yunxin Joy Jiao, Spencer Papay, Amelia Glaese, John Schulman, William Fedus,
- Abstract要約: 本稿では,言語モデルが短い事実探索質問に答える能力を評価するベンチマークであるSimpleQAを提案する。
SimpleQAはGPT-4応答に対して逆向きに収集される。
SimpleQAの各回答は、正しいか、間違っているか、試みられていないかのどちらかとしてランク付けされる。
- 参考スコア(独自算出の注目度): 50.15055025275888
- License:
- Abstract: We present SimpleQA, a benchmark that evaluates the ability of language models to answer short, fact-seeking questions. We prioritized two properties in designing this eval. First, SimpleQA is challenging, as it is adversarially collected against GPT-4 responses. Second, responses are easy to grade, because questions are created such that there exists only a single, indisputable answer. Each answer in SimpleQA is graded as either correct, incorrect, or not attempted. A model with ideal behavior would get as many questions correct as possible while not attempting the questions for which it is not confident it knows the correct answer. SimpleQA is a simple, targeted evaluation for whether models "know what they know," and our hope is that this benchmark will remain relevant for the next few generations of frontier models. SimpleQA can be found at https://github.com/openai/simple-evals.
- Abstract(参考訳): 我々は,言語モデルが短い事実探索質問に答える能力を評価するベンチマークであるSimpleQAを提案する。
私たちはこのevalを設計する際に2つの特性を優先しました。
まず、単純なQAはGPT-4応答に対して逆向きに収集されるため、困難である。
第二に、応答は評価し易く、なぜなら質問は1つしか存在しないような形で作られるからである。
SimpleQAの各回答は、正しいか、間違っているか、試みられていないかのどちらかとしてランク付けされる。
理想的な振る舞いを持つモデルは、正しい答えを知っている自信のない質問を試みていない間、できるだけ多くの質問を正すだろう。
SimpleQAは、モデルが"知っていることを知っている"かどうかを、シンプルでターゲットとした評価です。
SimpleQAはhttps://github.com/openai/simple-evalsで見ることができる。
関連論文リスト
- Is Complex Query Answering Really Complex? [28.8459899849641]
CQAの現在のベンチマークはそれほど複雑ではなく、それらの構築方法がこの分野の進歩に対する認識を歪めていることを示している。
我々は、複数のホップを推論し、現実世界のKGの構築をより良く反映するモデルを必要とするクエリで構成された、より困難なベンチマークセットを提案する。
論文 参考訳(メタデータ) (2024-10-16T13:19:03Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset [26.782937852417454]
複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:17:09Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering [42.120558318437475]
短い学習は、モデルがスプリアス統計規則を利用して正しい回答を生成するが、望ましい行動を展開しない場合に起こる。
近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T14:28:22Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。