論文の概要: A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning
- arxiv url: http://arxiv.org/abs/2311.07954v1
- Date: Tue, 14 Nov 2023 07:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 15:18:34.184826
- Title: A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning
- Title(参考訳): 論理推論における大規模言語モデルの自己検証能力について
- Authors: Ruixin Hong, Hongming Zhang, Xinyu Pang, Dong Yu, Changshui Zhang
- Abstract要約: 論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
- 参考スコア(独自算出の注目度): 79.14479982371984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical reasoning has been an ongoing pursuit in the field of AI. Despite
significant advancements made by large language models (LLMs), they still
struggle with complex logical reasoning problems. To enhance reasoning
performance, one promising direction is scalable oversight, which requires LLMs
to identify their own errors and then improve by themselves. Various
self-verification methods have been proposed in pursuit of this goal.
Nevertheless, whether existing models understand their own errors well is still
under investigation. In this paper, we take a closer look at the
self-verification abilities of LLMs in the context of logical reasoning,
focusing on their ability to identify logical fallacies accurately. We
introduce a dataset, FALLACIES, containing 232 types of reasoning fallacies
categorized in a hierarchical taxonomy. By conducting exhaustive experiments on
FALLACIES, we obtain comprehensive and detailed analyses of a series of models
on their verification abilities. Our main findings suggest that existing LLMs
could struggle to identify fallacious reasoning steps accurately and may fall
short of guaranteeing the validity of self-verification methods. Drawing from
these observations, we offer suggestions for future research and practical
applications of self-verification methods.
- Abstract(参考訳): 論理的推論は、AIの分野で進行中の追求である。
大きな言語モデル(LLM)による著しい進歩にもかかわらず、複雑な論理的推論問題に苦戦している。
推論性能を高めるために、ある有望な方向性はスケーラブルな監視であり、LSMは自身のエラーを特定し、それ自身で改善する必要がある。
この目的を追求する様々な自己検証手法が提案されている。
それでも、既存のモデルが自身のエラーを十分に理解しているかどうかはまだ調査中である。
本稿では,論理的誤りを正確に識別する能力に着目し,論理的推論の文脈におけるLLMの自己検証能力について詳しく検討する。
階層分類に分類された232種類の推論誤りを含むデータセットFALLACIESを導入する。
仮説を徹底的に実験することにより,検証能力に関する一連のモデルの包括的かつ詳細な分析を行う。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
これらの観察から, 自己検証手法の今後の研究と実用化に向けての提案を行う。
関連論文リスト
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study
on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。
本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文 参考訳(メタデータ) (2023-10-23T12:40:41Z) - Large Language Models Cannot Self-Correct Reasoning Yet [78.16697476530994]
LLM(Large Language Models)は、非並列テキスト生成機能を備えた画期的な技術として登場した。
生成したコンテンツの正確性と適切性に関する懸念が続いている。
現代の方法論である自己補正がこれらの問題に対する対策として提案されている。
論文 参考訳(メタデータ) (2023-10-03T04:56:12Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical
Reasoning Capabilities of Language Models [58.76688462256284]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
一つのタスクトレーニング,複数タスクトレーニング,および思考知識の蒸留微調整手法の連鎖について検討し,異なる論理的推論カテゴリにおけるモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Enhancing Reasoning Capabilities of Large Language Models: A Graph-Based
Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。
本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T03:12:59Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。