論文の概要: Self-Contradictory Reasoning Evaluation and Detection
- arxiv url: http://arxiv.org/abs/2311.09603v2
- Date: Mon, 19 Feb 2024 18:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 04:45:14.942080
- Title: Self-Contradictory Reasoning Evaluation and Detection
- Title(参考訳): 自己矛盾的推論評価と検出
- Authors: Ziyi Liu, Isabelle Lee, Yongkang Du, Soumya Sanyal, Jieyu Zhao
- Abstract要約: モデル推論が予測をサポートしない自己矛盾推論(Self-Contra)について検討する。
高い精度は、必ずしも低い自己コントラレートに対応しない。
GPT-4は自己コントラ推論を効果的に検出するのに苦労していることがわかった。
- 参考スコア(独自算出の注目度): 23.737562513392255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a plethora of recent work, large language models (LLMs) demonstrated
impressive reasoning ability, but many proposed downstream reasoning tasks
focus on performance-wise evaluation. Two fundamental questions persist: 1) how
reliable is the quality of reasoning, and 2) can models detect unreliable
reasoning? In this paper, we investigate self-contradictory (Self-Contra)
reasoning, where the model reasoning does not support predictions. To address
1), we assess the Self-Contra rate across four datasets and delve into
finer-grained categories of Self-Contra reasoning. We find that LLMs often
contradict themselves when performing reasoning tasks that involve contextual
information understanding or commonsense. Importantly, a higher accuracy does
not necessarily correspond to a lower Self-Contra rate. The model may appear to
generate correct answers but it may take shortcuts in reasoning or skip over
contextual evidence, thereby displaying Self-Contra behaviors with compromised
reasoning. As for 2), we task GPT-4 with identifying Self-Contra reasoning and
finer-grained fallacies. We observe that GPT-4 struggles to effectively detect
Self-Contra reasoning, with significantly low performance compared with human
judgment. Our results indicate that the current LLMs lack robustness necessary
for reliable reasoning and we emphasize the urgent need for establishing best
practices in comprehensive reasoning evaluations beyond accuracy-based metrics.
- Abstract(参考訳): 最近の研究で、大規模言語モデル(LLM)は印象的な推論能力を示したが、多くの下流推論タスクは性能評価に重点を置いている。
2つの基本的な疑問が残る。
1)推論の質はどの程度信頼できるか、
2) モデルは信頼できない推論を検出できるのか?
本稿では,モデル推論が予測をサポートしない自己矛盾推論(Self-Contra)について検討する。
1)4つのデータセット間での自己コントラ率を評価し,より詳細な自己コントラ推論のカテゴリを探索する。
LLMは文脈情報理解や常識を含む推論タスクを行う際に矛盾することが多い。
重要なことに、より高い精度は必ずしも低い自己矛盾率に対応しない。
モデルは正しい答えを生成するように見えるが、推論のショートカットや文脈的証拠をスキップすることで、妥協された推論を伴う自己コントラの振る舞いを表示することができる。
2) では, 自己コントラ推論とよりきめ細かい誤認を識別し, GPT-4 の処理を行う。
我々は,GPT-4が自己コントラ推論を効果的に検出するのに苦労していることを観察した。
以上より,現在のllmは信頼性の高い推論に必要な頑健性に欠けており,正確性に基づくメトリクス以上の総合的推論評価において,ベストプラクティスを確立する必要があることを強調する。
関連論文リスト
- Information Re-Organization Improves Reasoning in Large Language Models [22.2946033364035]
大規模言語モデル(LLM)の推論能力を高める情報再構成(InfoRE)手法を提案する。
本手法では,文書や段落などの文脈的内容から論理的関係を抽出し,ノイズを最小限に抑えるために冗長な内容を抽出する。
Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T08:47:27Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - How susceptible are LLMs to Logical Fallacies? [5.723715910568911]
論理的誤りに対する大規模言語モデルの堅牢性を評価するための診断ベンチマークであるLOGICOMを提案する。
本稿では,GPT-3.5とGPT-4の性能を評価するために,議論の的となっているトピックを含むデータセットを用いて評価を行う。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-08-18T23:07:29Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。