論文の概要: Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking
Reasoning Interpretability
- arxiv url: http://arxiv.org/abs/2104.06751v1
- Date: Wed, 14 Apr 2021 10:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 19:20:30.457363
- Title: Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking
Reasoning Interpretability
- Title(参考訳): マルチホップ推論は本当に説明できるのか?
ベンチマーク推論の解釈可能性に向けて
- Authors: Xin Lv, Yixin Cao, Lei Hou, Juanzi Li, Zhiyuan Liu, Yichi Zhang, Zelin
Dai
- Abstract要約: マルチホップ推論モデルの解釈可能性を定量的に評価する統合フレームワークを提案する。
具体的には、パスリコール、ローカルインタープリタビリティ、評価のためのグローバルインタープリタビリティの3つのメトリクスを定義します。
その結果、現在のマルチホップ推論モデルの解釈性は満足度が低く、ベンチマークによる上限からは程遠いことがわかった。
- 参考スコア(独自算出の注目度): 33.220997121043965
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-hop reasoning has been widely studied in recent years to obtain more
interpretable link prediction. However, we find in experiments that many paths
given by these models are actually unreasonable, while little works have been
done on interpretability evaluation for them. In this paper, we propose a
unified framework to quantitatively evaluate the interpretability of multi-hop
reasoning models so as to advance their development. In specific, we define
three metrics including path recall, local interpretability, and global
interpretability for evaluation, and design an approximate strategy to
calculate them using the interpretability scores of rules. Furthermore, we
manually annotate all possible rules and establish a Benchmark to detect the
Interpretability of Multi-hop Reasoning (BIMR). In experiments, we run nine
baselines on our benchmark. The experimental results show that the
interpretability of current multi-hop reasoning models is less satisfactory and
is still far from the upper bound given by our benchmark. Moreover, the
rule-based models outperform the multi-hop reasoning models in terms of
performance and interpretability, which points to a direction for future
research, i.e., we should investigate how to better incorporate rule
information into the multi-hop reasoning model. Our codes and datasets can be
obtained from https://github.com/THU-KEG/BIMR.
- Abstract(参考訳): 近年、より解釈可能なリンク予測を得るために、マルチホップ推論が広く研究されている。
しかし、これらのモデルが与える多くの経路は実際には理にかなわないが、解釈可能性評価に関する研究はほとんど行われていない。
本稿では,マルチホップ推論モデルの解釈可能性を定量的に評価し,開発を進めるための統一的な枠組みを提案する。
具体的には、パスリコール、局所解釈可能性、評価のためのグローバル解釈可能性の3つの指標を定義し、ルールの解釈可能性スコアを用いてそれらを計算する近似戦略を設計する。
さらに,可能なすべてのルールを手動でアノテートし,BIMR(Multi-hop Reasoning)の解釈可能性を検出するベンチマークを確立する。
実験では、ベンチマークで9つのベースラインを実行します。
実験の結果,現行のマルチホップ推論モデルの解釈性は満足度が低く,ベンチマークによる上限値からは程遠いことがわかった。
さらに、ルールベースモデルは、パフォーマンスと解釈可能性の観点から、マルチホップ推論モデルよりも優れており、将来の研究の方向性、すなわち、ルール情報をマルチホップ推論モデルにうまく組み込む方法を検討する必要がある。
コードとデータセットはhttps://github.com/THU-KEG/BIMRから取得できます。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Reasoning Circuits: Few-shot Multihop Question Generation with
Structured Rationales [11.068901022944015]
連鎖論理生成は多段階推論タスクの性能を向上させることが示されている。
極めて低い監督体制下でのマルチホップ質問生成にチェーン・オブ・インスパイアされた構造的合理的生成を適用するための新しい枠組みを導入する。
論文 参考訳(メタデータ) (2022-11-15T19:36:06Z) - MPLR: a novel model for multi-target learning of logical rules for
knowledge graph reasoning [5.499688003232003]
本研究では,知識グラフに基づく推論のための論理規則の学習問題について検討する。
本稿では,学習データを完全に活用するために既存のモデルを改善するMPLRと呼ばれるモデルを提案する。
実験結果は,MPLRモデルが5つのベンチマークデータセット上で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-12T09:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。