論文の概要: Self-Contradictory Reasoning Evaluation and Detection
- arxiv url: http://arxiv.org/abs/2311.09603v4
- Date: Mon, 21 Oct 2024 04:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:52.037301
- Title: Self-Contradictory Reasoning Evaluation and Detection
- Title(参考訳): 自己矛盾推論の評価と検出
- Authors: Ziyi Liu, Soumya Sanyal, Isabelle Lee, Yongkang Du, Rahul Gupta, Yang Liu, Jieyu Zhao,
- Abstract要約: 本稿では,自己矛盾推論(Self-Contra)について考察する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
GPT-4は52.2%のF1スコアで自己コントラを検出できる。
- 参考スコア(独自算出の注目度): 31.452161594896978
- License:
- Abstract: In a plethora of recent work, large language models (LLMs) demonstrated impressive reasoning ability, but many proposed downstream reasoning tasks only focus on final answers. Two fundamental questions persist: 1) how consistent is the reasoning, and 2) can models detect unreliable reasoning? In this paper, we investigate self-contradictory (Self-Contra) reasoning, where the model reasoning does not support its answers. To answer 1), we define and assess the Self-Contra rate across three datasets and delve into finer-grained categories of Self-Contra reasoning. We find that LLMs often contradict themselves in reasoning tasks involving contextual information understanding or commonsense. The model may generate correct answers by taking shortcuts in reasoning or overlooking contextual evidence, leading to compromised reasoning. For 2), we task the state-of-the-art model GPT-4 with identifying Self-Contra reasoning and finer-grained fallacies. We find that finer-grained categories enhanced detection can improve GPT-4's ability to detect Self-Contra. However, it is only able to detect Self-Contra with a 52.2% F1 score, much lower compared to 66.7% for humans. Our results indicate that current LLMs lack the robustness necessary for reliable reasoning and we emphasize the urgent need for establishing best practices in comprehensive reasoning evaluations beyond pure performance-based metrics.
- Abstract(参考訳): 最近の多くの研究で、大きな言語モデル(LLM)は印象的な推論能力を示したが、多くの下流推論タスクの提案は最終回答にのみ焦点を当てた。
2つの基本的な疑問が残る。
1) 理由の整合性,および
2) モデルは信頼できない推論を検出できるのか?
本稿では,自己矛盾推論(Self-Contra)について考察する。
1)3つのデータセット間での自己コントラ率を定義し評価し,よりきめ細かい自己コントラ推論のカテゴリを探索する。
LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。
このモデルは、文脈的証拠の推論や見落としでショートカットを取ることで正しい答えを生成し、妥協された推論につながる可能性がある。
2 では,自己コントラ推論とよりきめ細かな誤認識を識別し,最先端モデル GPT-4 に対処する。
その結果,GPT-4の自己コントラ検出能力は,よりきめ細かな分類によって向上することが判明した。
しかし、自己コントラは52.2%のF1スコアでしか検出できず、人間にとっては66.7%よりもはるかに低い。
以上の結果から,従来のLCMには信頼性の高い推論に必要なロバスト性が欠如していることが示唆された。
関連論文リスト
- Information Re-Organization Improves Reasoning in Large Language Models [22.2946033364035]
大規模言語モデル(LLM)の推論能力を高める情報再構成(InfoRE)手法を提案する。
本手法では,文書や段落などの文脈的内容から論理的関係を抽出し,ノイズを最小限に抑えるために冗長な内容を抽出する。
Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T08:47:27Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge
Reasoning via Promoting Causal Consistency in LLMs [63.26541167737355]
知識に基づく推論における忠実さと因果性を高めるための枠組みを提案する。
我々のフレームワークは、最先端のアプローチを大きなマージンで比較している。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z) - How susceptible are LLMs to Logical Fallacies? [5.723715910568911]
論理的誤りに対する大規模言語モデルの堅牢性を評価するための診断ベンチマークであるLOGICOMを提案する。
本稿では,GPT-3.5とGPT-4の性能を評価するために,議論の的となっているトピックを含むデータセットを用いて評価を行う。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-08-18T23:07:29Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。