Fugu-MT 論文翻訳(概要): Empowering LLMs with Logical Reasoning: A Comprehensive Survey

論文の概要: Empowering LLMs with Logical Reasoning: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2502.15652v1
Date: Fri, 21 Feb 2025 18:20:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.271872
Title: Empowering LLMs with Logical Reasoning: A Comprehensive Survey
Title（参考訳）: 論理的推論によるLLMの強化:包括的調査
Authors: Fengxiang Cheng, Haoxuan Li, Fenrong Liu, Robert van Rooij, Kun Zhang, Zhouchen Lin,
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な成功を収めた。近年の研究では、LLMの論理的推論能力にはまだ大きな課題があることがわかった。本稿では,主な課題を2つの側面にまとめ,分類する。
参考スコア（独自算出の注目度）: 49.91445266392609
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved remarkable successes on various natural language tasks. However, recent studies have found that there are still significant challenges to the logical reasoning abilities of LLMs. This paper summarizes and categorizes the main challenges into two aspects: (1) Logical question answering, LLMs often fail to generate the correct answer within complex logical problem which requires sophisticated deductive, inductive or abductive reasoning given a collection of premises and constrains. (2) Logical consistency, LLMs are prone to producing responses contradicting themselves across different questions. For example, a state-of-the-art Macaw question-answering LLM answers Yes to both questions Is a magpie a bird? and Does a bird have wings? but answers No to Does a magpie have wings?. To facilitate this research direction, we comprehensively investigate the most cutting-edge methods and propose detailed taxonomies of these methods. Specifically, to accurately answer complex logic questions, previous methods can be categorized based on reliance on external solvers, prompts, pretraining, and fine-tuning. To avoid logical contradictions, we discuss concepts and solutions of various logical consistencies, including implication, negation, transitivity, factuality consistency, and their composites. In addition, we review commonly used benchmark datasets and evaluation metrics, and discuss promising research directions, such as extensions to modal logic to account for uncertainty, and efficient algorithms satisfying multiple logical consistencies simultaneously.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な成功を収めた。しかし、近年の研究では、LLMの論理的推論能力にはまだ大きな課題があることがわかった。本稿では,(1)論理的質問応答, LLMは, 複雑な論理的問題において, 厳密な帰納的推論, 帰納的推論, 帰納的推論を必要とする正しい解を生成するのに失敗することが多い。 2) 論理的整合性, LLM は異なる質問に矛盾する応答を生み出す傾向にある。例えば、最先端のMacaw質問回答 LLM answer yes yes to both question is a magpie a bird? 鳥は羽を持っていますか。しかし、マグパイは翼を持っているのか? と。本研究の方向性を明らかにするため,最も最先端な手法を包括的に検討し,これらの手法の詳細な分類法を提案する。具体的には、複雑な論理問題に正確に答えるために、従来の手法は外部の解法、プロンプト、事前学習、微調整に頼って分類することができる。論理的矛盾を避けるために, 含意, 否定, 推移性, 事実整合性, それらの合成など, 様々な論理的成分の概念と解について議論する。さらに、よく使われるベンチマークデータセットと評価指標をレビューし、不確実性を考慮したモーダル論理の拡張や、複数の論理成分を同時に満たす効率的なアルゴリズムなど、将来的な研究方向性について論じる。

関連論文リスト

Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
SR-FoT: A Syllogistic-Reasoning Framework of Thought for Large Language Models Tackling Knowledge-based Reasoning Tasks [42.392103712958445]
大規模言語モデル(LLM)は正しい推論パスに従わないかもしれない。我々は、多段階のSylological-Reasoning Framework of Thought (SR-FoT)を提案する。我々のSR-FoTは、まず質問を解釈し、それから解釈と元の質問を使って適切な主要な前提を提案する。
論文参考訳（メタデータ） (2025-01-20T17:00:41Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Disentangling Logic: The Role of Context in Large Language Model Reasoning Capabilities [31.728976421529577]
包括的なドメイン集合からの抽象的および文脈的論理的問題に対するコントラストについて検討する。我々は、標準的な命題論理、特に命題推論と帰納論理推論に焦点を当てる。本実験は,LLMの論理的推論と真の推論能力に関する知見を提供することを目的としている。
論文参考訳（メタデータ） (2024-06-04T21:25:06Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs [102.37496443389203]
LGOT(Logic-Query-of-Thoughts)は知識グラフ推論と大規模言語モデルを組み合わせた最初の方法である。実験の結果,ChatGPTよりも20%向上した。
論文参考訳（メタデータ） (2024-03-17T17:01:45Z)
Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。 LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文参考訳（メタデータ） (2024-02-19T12:12:35Z)
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。 1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文参考訳（メタデータ） (2023-11-16T11:26:21Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。この研究は、LLMの推論を議論のような会話で議論することで検証する。優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文参考訳（メタデータ） (2023-05-22T15:47:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。