論文の概要: BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy
and Reasoning Ability
- arxiv url: http://arxiv.org/abs/2312.07527v1
- Date: Tue, 12 Dec 2023 18:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:37:11.984737
- Title: BaRDa: A Belief and Reasoning Dataset that Separates Factual Accuracy
and Reasoning Ability
- Title(参考訳): BaRDa: 事実の正確性と推論能力を分離した信念と推論データセット
- Authors: Peter Clark, Bhavana Dalvi Mishra, Oyvind Tafjord
- Abstract要約: BaRDaデータセットには3000のエンターメントが含まれている(1787年有効、1213年無効)
実際の精度(真実)は74.1/80.6/82.6/87.1で、推論精度は63.1/78.0/71.8/79.2である。
このことは、事実の正確さと細部推論を改善するためのモデルの明確な進歩を示している。
- 参考スコア(独自算出の注目度): 40.172565101583146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there are numerous benchmarks comparing the performance of modern
language models (LMs), end-task evaluations often conflate notions of *factual
accuracy* ("truth") and *reasoning ability* ("rationality", or "honesty" in the
sense of correctly reporting implications of beliefs). Our goal is a dataset
that clearly distinguishes these two notions. Our approach is to leverage and
extend a collection of human-annotated *entailment trees*, engineered to
express both good and bad chains of reasoning, and using a mixture of true and
false facts, in particular including counterfactual examples, to avoid belief
bias (also known as the "content effect"). The resulting dataset, called BaRDa,
contains 3000 entailments (1787 valid, 1213 invalid), using 6681 true and 2319
false statements. Testing on four GPT-series models,
GPT3(curie)/GPT3(davinici)/3.5/4, we find factual accuracy (truth) scores of
74.1/80.6/82.6/87.1 and reasoning accuracy scores of 63.1/78.0/71.8/79.2. This
shows the clear progression of models towards improved factual accuracy and
entailment reasoning, and the dataset provides a new benchmark that more
cleanly separates and quantifies these two notions.
- Abstract(参考訳): 現代の言語モデル(LM)のパフォーマンスを比較するベンチマークは数多くあるが、エンドタスク評価では*現実的正確性*(真実)と*推論能力*(信念の含意を正しく報告する意味での「合理性」または「正直」)の概念を説明できることが多い。
私たちの目標は、これらの2つの概念を明確に区別するデータセットです。
我々のアプローチは、人間に注釈された *entailment tree* のコレクションを活用し、拡張することであり、善と悪の両方の推論の連鎖を表現し、真と偽の事実、特に偽の例を含む混合を使用して、信念バイアス(「コンテンツ効果」とも呼ばれる)を避ける。
BaRDaと呼ばれるデータセットには、6681の真と2319の偽の文を使用して3000のentailments(1787の有効、1213の無効)が含まれている。
GPT3(curie)/GPT3(davinici)/3.5/4の4つのGPTシリーズモデルでテストしたところ、実際の精度(真実)スコアは74.1/80.6/82.6/87.1、推論精度スコアは63.1/78.0/71.8/79.2である。
これは、事実の正確性と関連する推論を改善するためのモデルの明確な進歩を示し、データセットは、これらの2つの概念をよりきれいに分離し、定量化する新しいベンチマークを提供する。
関連論文リスト
- How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。
信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。
確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-09-30T10:23:13Z) - FactGenius: Combining Zero-Shot Prompting and Fuzzy Relation Mining to Improve Fact Verification with Knowledge Graphs [0.0]
FactGeniusは,大規模言語モデルのゼロショットプロンプトと知識グラフ上のファジィテキストマッチングを組み合わせることで,ファクトチェックを強化する新しい手法である。
事実検証のベンチマークデータセットであるFactKG上でのFactGeniusの評価は、既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-06-03T13:24:37Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Noisy Positive-Unlabeled Learning with Self-Training for Speculative
Knowledge Graph Reasoning [31.62771133978441]
本稿では, 実世界の知識グラフ(KG)の投機的推論タスクについて検討する。これは, 真偽否定問題(すなわち, 否定される可能性のある事実)と正正問題(信頼できない事実や時代遅れな事実を含む)の両方を含む。
我々は,収集された事実と未収集事実の両方の正しさを共同で推定する変分フレームワーク,すなわちnPUGraphを提案する。
論文 参考訳(メタデータ) (2023-06-13T02:43:21Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。