論文の概要: SCORE: A framework for Self-Contradictory Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2311.09603v1
- Date: Thu, 16 Nov 2023 06:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:12:01.716158
- Title: SCORE: A framework for Self-Contradictory Reasoning Evaluation
- Title(参考訳): SCORE: 自己矛盾推論評価のためのフレームワーク
- Authors: Ziyi Liu, Isabelle Lee, Yongkang Du, Soumya Sanyal, Jieyu Zhao
- Abstract要約: 本研究では,大規模言語モデルがどの程度理にかなっているかを分析するためのフレームワークtextscSCOREを提案する。
LLMは、文脈情報や常識を含む推論タスクを行う際に、しばしば矛盾する。
正確な予測であっても、推論は散らかっていて不完全かもしれません。
- 参考スコア(独自算出の注目度): 23.737562513392255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive reasoning ability
in various language-based tasks. Despite many proposed reasoning methods aimed
at enhancing performance in downstream tasks, two fundamental questions
persist: Does reasoning genuinely support predictions, and how reliable is the
quality of reasoning? In this paper, we propose a framework \textsc{SCORE} to
analyze how well LLMs can reason. Specifically, we focus on self-contradictory
reasoning, where reasoning does not support the prediction. We find that LLMs
often contradict themselves when performing reasoning tasks that involve
contextual information and commonsense. The model may miss evidence or use
shortcuts, thereby exhibiting self-contradictory behaviors. We also employ the
Point-of-View (POV) method, which probes models to generate reasoning from
multiple perspectives, as a diagnostic tool for further analysis. We find that
though LLMs may appear to perform well in one-perspective settings, they fail
to stabilize such behavior in multi-perspectives settings. Even for correct
predictions, the reasoning may be messy and incomplete, and LLMs can easily be
led astray from good reasoning. \textsc{SCORE}'s results underscore the lack of
robustness required for trustworthy reasoning and the urgency for further
research to establish best practices for a comprehensive evaluation of
reasoning beyond accuracy-based metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な言語に基づくタスクにおいて印象的な推論能力を示している。
下流タスクのパフォーマンス向上を目的とした推論手法が数多く提案されているが、推論は予測を真にサポートするか、推論の質はどの程度信頼できるのか、という2つの基本的な疑問が続いている。
本稿では, LLM がどの程度理にかなっているかを分析するためのフレームワークであるtextsc{SCORE} を提案する。
具体的には、推論が予測をサポートしない自己矛盾推論に焦点を当てる。
LLMは、文脈情報や常識を含む推論タスクを行う際に、しばしば矛盾する。
モデルは証拠を見逃したり、ショートカットを使ったりして、自己矛盾行動を示す。
また,複数の視点から推論モデルを生成するためのpov(point-of-view)法を,さらなる解析のための診断ツールとして用いる。
LLMは1パースペクティブ設定ではよく動作するように見えるが、マルチパースペクティブ設定ではそのような動作を安定させることができない。
正しい予測であっても、推論は乱雑で不完全であり、適切な推論から容易にllmを導くことができる。
\textsc{score} の結果は、信頼できる推論に必要な堅牢さの欠如と、精度ベースのメトリクスを超えた推論の包括的な評価のためのベストプラクティスを確立するためのさらなる研究の緊急性を強調している。
関連論文リスト
- Information Re-Organization Improves Reasoning in Large Language Models [22.2946033364035]
大規模言語モデル(LLM)の推論能力を高める情報再構成(InfoRE)手法を提案する。
本手法では,文書や段落などの文脈的内容から論理的関係を抽出し,ノイズを最小限に抑えるために冗長な内容を抽出する。
Llama2-70B, GPT-3.5, GPT-4 を用いて, 各種マルチホップ推論タスクにおいて, 提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T08:47:27Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards CausalGPT: A Multi-Agent Approach for Faithful Knowledge
Reasoning via Promoting Causal Consistency in LLMs [63.26541167737355]
知識に基づく推論における忠実さと因果性を高めるための枠組みを提案する。
我々のフレームワークは、最先端のアプローチを大きなマージンで比較している。
論文 参考訳(メタデータ) (2023-08-23T04:59:21Z) - How susceptible are LLMs to Logical Fallacies? [5.723715910568911]
論理的誤りに対する大規模言語モデルの堅牢性を評価するための診断ベンチマークであるLOGICOMを提案する。
本稿では,GPT-3.5とGPT-4の性能を評価するために,議論の的となっているトピックを含むデータセットを用いて評価を行う。
以上より, GPT-3.5 と GPT-4 は理屈によって意見の調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-08-18T23:07:29Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - Language Models with Rationality [57.37201135072838]
大規模言語モデル(LLM)は質問応答(QA)に熟練している
答えが潜んでいる「信条」からどのように従うか(あるいはたとえも)は必ずしも明確ではない。
論文 参考訳(メタデータ) (2023-05-23T17:04:25Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。