論文の概要: On the Challenges of Evaluating Compositional Explanations in Multi-Hop
Inference: Relevance, Completeness, and Expert Ratings
- arxiv url: http://arxiv.org/abs/2109.03334v1
- Date: Tue, 7 Sep 2021 21:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 08:01:52.388050
- Title: On the Challenges of Evaluating Compositional Explanations in Multi-Hop
Inference: Relevance, Completeness, and Expert Ratings
- Title(参考訳): マルチホップ推論における構成説明評価の課題:妥当性,完全性,専門家評価
- Authors: Peter Jansen, Kelly Smith, Dan Moreno and Huitzilin Ortiz
- Abstract要約: 構成的な説明を構築するには、2つ以上の事実を組み合わせる必要がある。
本研究では,これらの評価を,事実の関連性およびモデル生成説明の完全性の観点から,モデル性能を著しく過小評価する。
我々は、異なる方法論(世代、ランク、スキーマ)に基づいて3つの強力なモデルを構築し、専門家による評価が説明品質のより良い見積もりを提供する一方で、オリジナルの(ゴールド)と専門家による自動評価の両方が、完全な手作業による専門家の判断と比較した場合、パフォーマンスを最大36%下回っていることを実証的に示す。
- 参考スコア(独自算出の注目度): 1.7243339961137647
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building compositional explanations requires models to combine two or more
facts that, together, describe why the answer to a question is correct.
Typically, these "multi-hop" explanations are evaluated relative to one (or a
small number of) gold explanations. In this work, we show these evaluations
substantially underestimate model performance, both in terms of the relevance
of included facts, as well as the completeness of model-generated explanations,
because models regularly discover and produce valid explanations that are
different than gold explanations. To address this, we construct a large corpus
of 126k domain-expert (science teacher) relevance ratings that augment a corpus
of explanations to standardized science exam questions, discovering 80k
additional relevant facts not rated as gold. We build three strong models based
on different methodologies (generation, ranking, and schemas), and empirically
show that while expert-augmented ratings provide better estimates of
explanation quality, both original (gold) and expert-augmented automatic
evaluations still substantially underestimate performance by up to 36% when
compared with full manual expert judgements, with different models being
disproportionately affected. This poses a significant methodological challenge
to accurately evaluating explanations produced by compositional reasoning
models.
- Abstract(参考訳): 構成的説明を構築するには、質問に対する答えが正しい理由を説明する2つ以上の事実を結合する必要がある。
通常、これらの「マルチホップ」の説明は1つの(または少数の)金の説明と比較して評価される。
本研究は,本モデルが金の説明と異なる有効な説明を定期的に発見・生成するため,包含事実の関連性およびモデル生成説明の完全性の両方の観点から,モデル性能を著しく過小評価するものである。
そこで本研究では,126kのドメインエキスパート(理科教員)関連格付けの大規模なコーパスを構築し,標準化された理科試験問題に対する説明コーパスを増強し,ゴールドと評価されない80k以上の関連事実を発見する。
異なる方法論(世代、ランキング、スキーマ)に基づいた3つの強力なモデルを構築し、経験的に、専門家による評価が説明品質のより良い見積もりを提供する一方で、原型(金)と専門家による自動評価は、完全な手動の専門家判断と比較した場合、パフォーマンスを最大36%過小評価し、異なるモデルが不釣り合いに影響を受けていることを示している。
これは、構成的推論モデルによって生成された説明を正確に評価するために重要な方法論的課題をもたらす。
関連論文リスト
- Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。
実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-04-16T08:39:29Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - OPT-R: Exploring the Role of Explanations in Finetuning and Prompting
for Reasoning Skills of Large Language Models [48.412284346337344]
我々はLarge Language Models(LLMs)の推論能力について徹底的な調査を行っている。
本研究は,Open Pretrained Transformers (OPT) の3つの異なるサイズを微調整する。
次に、SUPER-NATURALINSTRUCTIONSベンチマークから引き出された57の領域外タスクについて、全てのモデルを評価する。
論文 参考訳(メタデータ) (2023-05-19T20:58:22Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - ExSum: From Local Explanations to Model Understanding [6.23934576145261]
ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法を開発した。
この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。
本稿では,モデル理解の定量化のための数学的枠組みである説明要約(ExSum)を紹介する。
論文 参考訳(メタデータ) (2022-04-30T02:07:20Z) - Detection Accuracy for Evaluating Compositional Explanations of Units [5.220940151628734]
このアプローチを使う方法の2つの例は、ネットワーク分割と構成的説明である。
直感的には、論理形式は原子概念よりも情報的であるが、この改善を定量化する方法は明らかではない。
提案手法は,各ユニットが割り当てた説明文の検出の一貫性を計測する検出精度の評価指標として用いる。
論文 参考訳(メタデータ) (2021-09-16T08:47:34Z) - Evaluating Explanations: How much do explanations from the teacher aid
students? [103.05037537415811]
本研究では,説明が生徒の学習モデルを改善する程度を測る学生-教師パラダイムを用いて,説明の価値を定式化する。
説明を評価するための従来の提案とは異なり、我々のアプローチは容易にゲーム化できず、原則付き、スケーラブルで、属性の自動評価を可能にします。
論文 参考訳(メタデータ) (2020-12-01T23:40:21Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。