Fugu-MT 論文翻訳(概要): Understanding LLM Scientific Reasoning through Promptings and Model's Explanation on the Answers

論文の概要: Understanding LLM Scientific Reasoning through Promptings and Model's Explanation on the Answers

arxiv url: http://arxiv.org/abs/2505.01482v1
Date: Fri, 02 May 2025 16:16:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 18:49:35.14515
Title: Understanding LLM Scientific Reasoning through Promptings and Model's Explanation on the Answers
Title（参考訳）: LLMの科学的推論の証明とモデルによる解答の解説
Authors: Alice Rueda, Mohammed S. Hassan, Argyrios Perivolaris, Bazen G. Teferra, Reza Samavi, Sirisha Rambhatla, Yuqi Wu, Yanbo Zhang, Bo Cao, Divya Sharma, Sridhar Krishnan Venkat Bhat,
Abstract要約: 大規模言語モデル(LLM)は、自然言語理解、推論、問題解決において顕著な能力を示した。本稿では,現代LLMの推理能力について検討し,その強度,限界,改善の可能性について分析する。
参考スコア（独自算出の注目度）: 7.903401405495381
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in natural language understanding, reasoning, and problem-solving across various domains. However, their ability to perform complex, multi-step reasoning task-essential for applications in science, medicine, and law-remains an area of active investigation. This paper examines the reasoning capabilities of contemporary LLMs, analyzing their strengths, limitations, and potential for improvement. The study uses prompt engineering techniques on the Graduate-Level GoogleProof Q&A (GPQA) dataset to assess the scientific reasoning of GPT-4o. Five popular prompt engineering techniques and two tailored promptings were tested: baseline direct answer (zero-shot), chain-of-thought (CoT), zero-shot CoT, self-ask, self-consistency, decomposition, and multipath promptings. Our findings indicate that while LLMs exhibit emergent reasoning abilities, they often rely on pattern recognition rather than true logical inference, leading to inconsistencies in complex problem-solving. The results indicated that self-consistency outperformed the other prompt engineering technique with an accuracy of 52.99%, followed by direct answer (52.23%). Zero-shot CoT (50%) outperformed multipath (48.44%), decomposition (47.77%), self-ask (46.88%), and CoT (43.75%). Self-consistency performed the second worst in explaining the answers. Simple techniques such as direct answer, CoT, and zero-shot CoT have the best scientific reasoning. We propose a research agenda aimed at bridging these gaps by integrating structured reasoning frameworks, hybrid AI approaches, and human-in-the-loop methodologies. By critically evaluating the reasoning mechanisms of LLMs, this paper contributes to the ongoing discourse on the future of artificial general intelligence and the development of more robust, trustworthy AI systems.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語理解、推論、様々な領域における問題解決において顕著な能力を示した。しかし、科学、医学、法学の応用に不可欠な複雑な多段階の推論タスクを実行する能力は、活発な調査の領域を残している。本稿では,現代LLMの推理能力について検討し,その強度,限界,改善の可能性について分析する。この研究は、GPT-4oの科学的推論を評価するために、大学院レベルのGoogleProof Q&A(GPQA)データセットに即時エンジニアリング技術を使用する。 5つの一般的なプロンプト技術と2つのプロンプトが試験され、ベースライン直接応答(ゼロショット)、チェーン・オブ・シークレット(CoT)、ゼロショットCoT、セルフアスキー、自己整合性、分解、マルチパスプロンプトが試験された。以上の結果から, LLMは創発的推論能力を示すが, 論理的推論よりもパターン認識に頼っていることが多く, 複雑な問題解決に矛盾が生じることが示唆された。その結果、自己整合性は52.99%の精度で他のプロンプトエンジニアリング技術よりも優れ、続いて直接回答(52.23%)が得られた。ゼロショットCoT(50%)はマルチパス(48.44%)、分解(47.77%)、自己攻撃(46.88%)、CoT(43.75%)を上回った。自己整合性は答えを説明する上で2番目に最悪だった。直接応答、CoT、ゼロショットCoTといった単純な手法は、最良の科学的推論である。本稿では,これらのギャップを埋めるための研究課題として,構造化推論フレームワーク,ハイブリッドAIアプローチ,ヒューマン・イン・ザ・ループ手法を統合することを提案する。本稿では,LLMの推論機構を批判的に評価することにより,人工知能の将来と,より堅牢で信頼性の高いAIシステムの開発に関する議論に寄与する。

関連論文リスト

Thinking About Thinking: SAGE-nano's Inverse Reasoning for Self-Aware Language Models [0.0]
大規模言語モデル(LLM)は、Chain-of-Thoughtプロンプトで複雑な推論タスクを解く際、顕著な能力を示した。我々は, LLM を分解し, 自己の推論連鎖をポストホックで説明できる新しいパラダイムであるtextbfinverse reasoning を紹介した。私たちの研究は、透明なAIシステムのための新たな道を作り、AIの安全性、教育、科学的発見において大きなギャップを埋めます。
論文参考訳（メタデータ） (2025-06-30T09:53:41Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。本稿では,自己疑念の観点から,過剰思考を定量的に分析する。本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2025-05-29T14:30:02Z)
Why Does Your CoT Prompt (Not) Work? Theoretical Analysis of Prompt Space Complexity, its Interaction with Answer Space During CoT Reasoning with LLMs: A Recurrent Perspective [15.941209553757274]
CoT(Chain-of-Thought)プロンプトは、LLM(Large Language Models)の限界に対する実用的な解決策として登場した。本稿では,2つの重要な空間,すなわちプロンプト空間と応答空間の間の複雑性と相互作用について,厳密な理論的解析を行う。我々は、時として人間の監督が、プロンプト空間を効率的にナビゲートするために重要であることを示す。
論文参考訳（メタデータ） (2025-03-13T06:11:10Z)
Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。 RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文参考訳（メタデータ） (2025-01-03T02:55:44Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。 SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文参考訳（メタデータ） (2024-02-06T01:13:53Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)
T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。 LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-05T11:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。