Fugu-MT 論文翻訳(概要): A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning

論文の概要: A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning

arxiv url: http://arxiv.org/abs/2311.07954v1
Date: Tue, 14 Nov 2023 07:13:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 15:18:34.184826
Title: A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning
Title（参考訳）: 論理推論における大規模言語モデルの自己検証能力について
Authors: Ruixin Hong, Hongming Zhang, Xinyu Pang, Dong Yu, Changshui Zhang
Abstract要約: 論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
参考スコア（独自算出の注目度）: 79.14479982371984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logical reasoning has been an ongoing pursuit in the field of AI. Despite significant advancements made by large language models (LLMs), they still struggle with complex logical reasoning problems. To enhance reasoning performance, one promising direction is scalable oversight, which requires LLMs to identify their own errors and then improve by themselves. Various self-verification methods have been proposed in pursuit of this goal. Nevertheless, whether existing models understand their own errors well is still under investigation. In this paper, we take a closer look at the self-verification abilities of LLMs in the context of logical reasoning, focusing on their ability to identify logical fallacies accurately. We introduce a dataset, FALLACIES, containing 232 types of reasoning fallacies categorized in a hierarchical taxonomy. By conducting exhaustive experiments on FALLACIES, we obtain comprehensive and detailed analyses of a series of models on their verification abilities. Our main findings suggest that existing LLMs could struggle to identify fallacious reasoning steps accurately and may fall short of guaranteeing the validity of self-verification methods. Drawing from these observations, we offer suggestions for future research and practical applications of self-verification methods.
Abstract（参考訳）: 論理的推論は、AIの分野で進行中の追求である。大きな言語モデル(LLM)による著しい進歩にもかかわらず、複雑な論理的推論問題に苦戦している。推論性能を高めるために、ある有望な方向性はスケーラブルな監視であり、LSMは自身のエラーを特定し、それ自身で改善する必要がある。この目的を追求する様々な自己検証手法が提案されている。それでも、既存のモデルが自身のエラーを十分に理解しているかどうかはまだ調査中である。本稿では,論理的誤りを正確に識別する能力に着目し,論理的推論の文脈におけるLLMの自己検証能力について詳しく検討する。階層分類に分類された232種類の推論誤りを含むデータセットFALLACIESを導入する。仮説を徹底的に実験することにより,検証能力に関する一連のモデルの包括的かつ詳細な分析を行う。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。これらの観察から, 自己検証手法の今後の研究と実用化に向けての提案を行う。

関連論文リスト

Large Language Model Reasoning Failures [3.139060394530521]
大規模言語モデル(LLM)における推論失敗に関する総合的な調査を初めて紹介する。我々は、推論をエンボディード型と非エンボディード型に区別する新しい分類フレームワークを導入する。それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。
論文参考訳（メタデータ） (2026-02-05T20:29:26Z)
Beyond Correctness: Exposing LLM-generated Logical Flaws in Reasoning via Multi-step Automated Theorem Proving [11.24425572063955]
大規模言語モデル(LLM)は驚くべき推論能力を示しており、医療、法律、科学研究などの高度な領域で採用されている。しばしば、流動的な言語で隠された微妙な論理的誤りがあり、重要なアプリケーションにとって重大なリスクを生じさせる。 MATPは多段階自動定理証明によるLCM推論を体系的に検証するための評価フレームワークである。
論文参考訳（メタデータ） (2025-12-29T14:48:15Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。 EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文参考訳（メタデータ） (2023-11-12T05:12:49Z)
DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文参考訳（メタデータ） (2023-10-28T10:05:51Z)
Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism [19.590120229602103]
大規模言語モデル(LLM)は、ステップバイステップの推論命令、例えばチェーン・オブ・シント(CoT)プロンプトを利用する。本研究では, 否定に着目したLCMのステップバイステップ推論能力について検討する。
論文参考訳（メタデータ） (2023-10-23T12:40:41Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。 COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。