Fugu-MT 論文翻訳(概要): Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability

論文の概要: Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability

arxiv url: http://arxiv.org/abs/2104.06751v1
Date: Wed, 14 Apr 2021 10:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-15 19:20:30.457363
Title: Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability
Title（参考訳）: マルチホップ推論は本当に説明できるのか? ベンチマーク推論の解釈可能性に向けて
Authors: Xin Lv, Yixin Cao, Lei Hou, Juanzi Li, Zhiyuan Liu, Yichi Zhang, Zelin Dai
Abstract要約: マルチホップ推論モデルの解釈可能性を定量的に評価する統合フレームワークを提案する。具体的には、パスリコール、ローカルインタープリタビリティ、評価のためのグローバルインタープリタビリティの3つのメトリクスを定義します。その結果、現在のマルチホップ推論モデルの解釈性は満足度が低く、ベンチマークによる上限からは程遠いことがわかった。
参考スコア（独自算出の注目度）: 33.220997121043965
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Multi-hop reasoning has been widely studied in recent years to obtain more interpretable link prediction. However, we find in experiments that many paths given by these models are actually unreasonable, while little works have been done on interpretability evaluation for them. In this paper, we propose a unified framework to quantitatively evaluate the interpretability of multi-hop reasoning models so as to advance their development. In specific, we define three metrics including path recall, local interpretability, and global interpretability for evaluation, and design an approximate strategy to calculate them using the interpretability scores of rules. Furthermore, we manually annotate all possible rules and establish a Benchmark to detect the Interpretability of Multi-hop Reasoning (BIMR). In experiments, we run nine baselines on our benchmark. The experimental results show that the interpretability of current multi-hop reasoning models is less satisfactory and is still far from the upper bound given by our benchmark. Moreover, the rule-based models outperform the multi-hop reasoning models in terms of performance and interpretability, which points to a direction for future research, i.e., we should investigate how to better incorporate rule information into the multi-hop reasoning model. Our codes and datasets can be obtained from https://github.com/THU-KEG/BIMR.
Abstract（参考訳）: 近年、より解釈可能なリンク予測を得るために、マルチホップ推論が広く研究されている。しかし、これらのモデルが与える多くの経路は実際には理にかなわないが、解釈可能性評価に関する研究はほとんど行われていない。本稿では,マルチホップ推論モデルの解釈可能性を定量的に評価し,開発を進めるための統一的な枠組みを提案する。具体的には、パスリコール、局所解釈可能性、評価のためのグローバル解釈可能性の3つの指標を定義し、ルールの解釈可能性スコアを用いてそれらを計算する近似戦略を設計する。さらに,可能なすべてのルールを手動でアノテートし,BIMR(Multi-hop Reasoning)の解釈可能性を検出するベンチマークを確立する。実験では、ベンチマークで9つのベースラインを実行します。実験の結果,現行のマルチホップ推論モデルの解釈性は満足度が低く,ベンチマークによる上限値からは程遠いことがわかった。さらに、ルールベースモデルは、パフォーマンスと解釈可能性の観点から、マルチホップ推論モデルよりも優れており、将来の研究の方向性、すなわち、ルール情報をマルチホップ推論モデルにうまく組み込む方法を検討する必要がある。コードとデータセットはhttps://github.com/THU-KEG/BIMRから取得できます。

関連論文リスト

A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文参考訳（メタデータ） (2025-05-29T18:55:05Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。自己批判型反復推論(SiGIR)を提案する。 SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文参考訳（メタデータ） (2025-05-25T12:10:24Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文参考訳（メタデータ） (2024-10-11T19:22:57Z)
Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文参考訳（メタデータ） (2024-09-08T19:22:58Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T03:38:51Z)
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文参考訳（メタデータ） (2024-02-05T18:25:51Z)
Did the Models Understand Documents? Benchmarking Models for Language Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文参考訳（メタデータ） (2023-06-20T08:52:05Z)
HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文参考訳（メタデータ） (2023-05-23T16:53:49Z)
STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文参考訳（メタデータ） (2023-02-13T22:34:02Z)
Reasoning Circuits: Few-shot Multihop Question Generation with Structured Rationales [11.068901022944015]
連鎖論理生成は多段階推論タスクの性能を向上させることが示されている。極めて低い監督体制下でのマルチホップ質問生成にチェーン・オブ・インスパイアされた構造的合理的生成を適用するための新しい枠組みを導入する。
論文参考訳（メタデータ） (2022-11-15T19:36:06Z)
MPLR: a novel model for multi-target learning of logical rules for knowledge graph reasoning [5.499688003232003]
本研究では,知識グラフに基づく推論のための論理規則の学習問題について検討する。本稿では,学習データを完全に活用するために既存のモデルを改善するMPLRと呼ばれるモデルを提案する。実験結果は,MPLRモデルが5つのベンチマークデータセット上で最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2021-12-12T09:16:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。