論文の概要: Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking
Reasoning Interpretability
- arxiv url: http://arxiv.org/abs/2104.06751v1
- Date: Wed, 14 Apr 2021 10:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 19:20:30.457363
- Title: Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking
Reasoning Interpretability
- Title(参考訳): マルチホップ推論は本当に説明できるのか?
ベンチマーク推論の解釈可能性に向けて
- Authors: Xin Lv, Yixin Cao, Lei Hou, Juanzi Li, Zhiyuan Liu, Yichi Zhang, Zelin
Dai
- Abstract要約: マルチホップ推論モデルの解釈可能性を定量的に評価する統合フレームワークを提案する。
具体的には、パスリコール、ローカルインタープリタビリティ、評価のためのグローバルインタープリタビリティの3つのメトリクスを定義します。
その結果、現在のマルチホップ推論モデルの解釈性は満足度が低く、ベンチマークによる上限からは程遠いことがわかった。
- 参考スコア(独自算出の注目度): 33.220997121043965
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-hop reasoning has been widely studied in recent years to obtain more
interpretable link prediction. However, we find in experiments that many paths
given by these models are actually unreasonable, while little works have been
done on interpretability evaluation for them. In this paper, we propose a
unified framework to quantitatively evaluate the interpretability of multi-hop
reasoning models so as to advance their development. In specific, we define
three metrics including path recall, local interpretability, and global
interpretability for evaluation, and design an approximate strategy to
calculate them using the interpretability scores of rules. Furthermore, we
manually annotate all possible rules and establish a Benchmark to detect the
Interpretability of Multi-hop Reasoning (BIMR). In experiments, we run nine
baselines on our benchmark. The experimental results show that the
interpretability of current multi-hop reasoning models is less satisfactory and
is still far from the upper bound given by our benchmark. Moreover, the
rule-based models outperform the multi-hop reasoning models in terms of
performance and interpretability, which points to a direction for future
research, i.e., we should investigate how to better incorporate rule
information into the multi-hop reasoning model. Our codes and datasets can be
obtained from https://github.com/THU-KEG/BIMR.
- Abstract(参考訳): 近年、より解釈可能なリンク予測を得るために、マルチホップ推論が広く研究されている。
しかし、これらのモデルが与える多くの経路は実際には理にかなわないが、解釈可能性評価に関する研究はほとんど行われていない。
本稿では,マルチホップ推論モデルの解釈可能性を定量的に評価し,開発を進めるための統一的な枠組みを提案する。
具体的には、パスリコール、局所解釈可能性、評価のためのグローバル解釈可能性の3つの指標を定義し、ルールの解釈可能性スコアを用いてそれらを計算する近似戦略を設計する。
さらに,可能なすべてのルールを手動でアノテートし,BIMR(Multi-hop Reasoning)の解釈可能性を検出するベンチマークを確立する。
実験では、ベンチマークで9つのベースラインを実行します。
実験の結果,現行のマルチホップ推論モデルの解釈性は満足度が低く,ベンチマークによる上限値からは程遠いことがわかった。
さらに、ルールベースモデルは、パフォーマンスと解釈可能性の観点から、マルチホップ推論モデルよりも優れており、将来の研究の方向性、すなわち、ルール情報をマルチホップ推論モデルにうまく組み込む方法を検討する必要がある。
コードとデータセットはhttps://github.com/THU-KEG/BIMRから取得できます。
関連論文リスト
- Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and
Improving LLMs [95.41575344721691]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Understanding the Reasoning Ability of Language Models From the
Perspective of Reasoning Paths Aggregation [117.32019595678771]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびMWPデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - Leveraging Structured Information for Explainable Multi-hop Question
Answering and Reasoning [14.219239732584368]
本研究では,マルチホップ質問応答のための抽出された意味構造(グラフ)の構築と活用について検討する。
実験結果と人的評価の結果から、我々のフレームワークはより忠実な推論連鎖を生成し、2つのベンチマークデータセットのQA性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-07T05:32:39Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Reasoning Circuits: Few-shot Multihop Question Generation with
Structured Rationales [11.068901022944015]
連鎖論理生成は多段階推論タスクの性能を向上させることが示されている。
極めて低い監督体制下でのマルチホップ質問生成にチェーン・オブ・インスパイアされた構造的合理的生成を適用するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2022-11-15T19:36:06Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - MPLR: a novel model for multi-target learning of logical rules for
knowledge graph reasoning [5.499688003232003]
本研究では,知識グラフに基づく推論のための論理規則の学習問題について検討する。
本稿では,学習データを完全に活用するために既存のモデルを改善するMPLRと呼ばれるモデルを提案する。
実験結果は,MPLRモデルが5つのベンチマークデータセット上で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-12T09:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。