Fugu-MT 論文翻訳(概要): Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying

論文の概要: Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying

arxiv url: http://arxiv.org/abs/2412.15177v1
Date: Thu, 19 Dec 2024 18:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.259787
Title: Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying
Title（参考訳）: クリティカル・クエスト・オブ・ワット:調合的クエリによるLCM推論のステアリング
Authors: Federico Castagna, Isabel Sassoon, Simon Parsons,
Abstract要約: State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
参考スコア（独自算出の注目度）: 0.3659498819753633
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Studies have underscored how, regardless of the recent breakthrough and swift advances in AI research, even state-of-the-art Large Language models (LLMs) continue to struggle when performing logical and mathematical reasoning. The results seem to suggest that LLMs still work as (highly advanced) data pattern identifiers, scoring poorly when attempting to generalise and solve reasoning problems the models have never previously seen or that are not close to samples presented in their training data. To address this compelling concern, this paper makes use of the notion of critical questions from the literature on argumentation theory, focusing in particular on Toulmin's model of argumentation. We show that employing these critical questions can improve the reasoning capabilities of LLMs. By probing the rationale behind the models' reasoning process, the LLM can assess whether some logical mistake is occurring and correct it before providing the final reply to the user prompt. The underlying idea is drawn from the gold standard of any valid argumentative procedure: the conclusion is valid if it is entailed by accepted premises. Or, to paraphrase such Aristotelian principle in a real-world approximation, characterised by incomplete information and presumptive logic, the conclusion is valid if not proved otherwise. This approach successfully steers the models' output through a reasoning pipeline, resulting in better performance against the baseline and its Chain-of-Thought (CoT) implementation. To this end, an extensive evaluation of the proposed approach on the MT-Bench Reasoning and Math tasks across a range of LLMs is provided.
Abstract（参考訳）: 研究は、最近のAI研究の突破口と急激な進歩にかかわらず、論理的および数学的推論を行う際に、最先端のLarge Language Model (LLMs) でさえ苦戦し続けていることを強調している。結果は、LLMが依然として(高度に高度な)データパターン識別子として機能し、モデルをこれまで見たことのない、あるいはトレーニングデータに提示されたサンプルに近づかない推論問題を一般化し解決しようとすると、評価が低くなることを示唆しているようだ。この問題に対処するために,本論文では,議論論に関する文献からの批判的質問の概念を活用し,特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。モデルの推論プロセスの背後にある理論的根拠を探索することにより、LCMは論理的な誤りが発生したかどうかを判断し、ユーザープロンプトに最終応答を与える前に修正することができる。根底にある考え方は、有効な議論手続きの金本位制(英語版)から導かれる:結論は、それが受け入れられた前提に関連付けられている場合に有効である。あるいは、アリストテレスの原理を現実の近似で言い換えると、不完全情報と先入観論理によって特徴づけられるように、その結論は、他の証明がなければ有効である。このアプローチは、推論パイプラインを通じてモデルの出力を制御し、ベースラインとCoT(Chain-of-Thought)実装に対するパフォーマンスを向上させる。この目的のために,MT-Bench ReasoningおよびMathタスクに対する提案手法の広範囲な評価を行った。

関連論文リスト

CausalFlip: A Benchmark for LLM Causal Judgment Beyond Semantic Matching [50.65932158912512]
そこで我々は,新しい大言語モデルの開発を促進するために,因果推論ベンチマークCausalFlipを提案する。 CaulFlipは、イベントトリプル上に構築された因果判断の質問で構成されており、共同創設者、チェーン、コライダーの関係が異なっている。回答のみのトレーニング,明示的なチェーン・オブ・ソート監視,そして内在型因果推論アプローチなどを含む,複数の訓練パラダイムによるLCMの評価を行った。
論文参考訳（メタデータ） (2026-02-23T18:06:15Z)
Beyond Correctness: Exposing LLM-generated Logical Flaws in Reasoning via Multi-step Automated Theorem Proving [11.24425572063955]
大規模言語モデル(LLM)は驚くべき推論能力を示しており、医療、法律、科学研究などの高度な領域で採用されている。しばしば、流動的な言語で隠された微妙な論理的誤りがあり、重要なアプリケーションにとって重大なリスクを生じさせる。 MATPは多段階自動定理証明によるLCM推論を体系的に検証するための評価フレームワークである。
論文参考訳（メタデータ） (2025-12-29T14:48:15Z)
Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics [24.173784986846687]
我々はCAT(Computational Argumentation Theory)からLarge Language Models (LLMs) を推定できるかどうかを評価する。我々はQuADセマンティクスを用いて、攻撃とサポートの関係に基づいて、アクセプティビリティスコアを引数に割り当てる。
論文参考訳（メタデータ） (2025-09-19T08:10:32Z)
Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文参考訳（メタデータ） (2025-09-02T14:16:02Z)
WakenLLM: Evaluating Reasoning Potential and Stability in LLMs via Fine-Grained Benchmarking [14.76224690767612]
大規模言語モデル(LLM)は、推論タスクにおいて未知のラベルを頻繁に出力する。我々は、モデル非能力に起因する未知の出力の一部を定量化するフレームワーク、WakenLLMを紹介した。
論文参考訳（メタデータ） (2025-07-22T03:21:48Z)
Evaluating Social Biases in LLM Reasoning [19.824838766883534]
本稿では,DeepSeek-R1 の 8B と 32B の変種を,BBQ データセット上の命令調整版と比較した。我々の知る限りでは、この実証的研究は、LLM推論におけるバイアス問題を初めて評価するものである。
論文参考訳（メタデータ） (2025-02-21T10:16:07Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Self-Contradictory Reasoning Evaluation and Detection [31.452161594896978]
本稿では,自己矛盾推論(Self-Contra)について考察する。 LLMは文脈情報理解や常識を含むタスクの推論において矛盾することが多い。 GPT-4は52.2%のF1スコアで自己コントラを検出できる。
論文参考訳（メタデータ） (2023-11-16T06:22:17Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。