論文の概要: Beyond the Answer: Decoding the Behavior of LLMs as Scientific Reasoners
- arxiv url: http://arxiv.org/abs/2603.28038v1
- Date: Mon, 30 Mar 2026 05:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.236236
- Title: Beyond the Answer: Decoding the Behavior of LLMs as Scientific Reasoners
- Title(参考訳): 科学的推論者としてのLCMの振舞いの復号化
- Authors: Rohan Pandey, Eric Ye, Michael Li,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な推論タスクにおいて、ますます高度なパフォーマンスを達成する。
創発的推論の特徴付けは、長期的な解釈可能性と安全性に不可欠である。
我々は、科学的推論タスクのプロンプトを体系的に最適化するために、GEPAのカスタム版を使用する。
- 参考スコア(独自算出の注目度): 3.831016688248884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) achieve increasingly sophisticated performance on complex reasoning tasks, current architectures serve as critical proxies for the internal heuristics of frontier models. Characterizing emergent reasoning is vital for long-term interpretability and safety. Furthermore, understanding how prompting modulates these processes is essential, as natural language will likely be the primary interface for interacting with AGI systems. In this work, we use a custom variant of Genetic Pareto (GEPA) to systematically optimize prompts for scientific reasoning tasks, and analyze how prompting can affect reasoning behavior. We investigate the structural patterns and logical heuristics inherent in GEPA-optimized prompts, and evaluate their transferability and brittleness. Our findings reveal that gains in scientific reasoning often correspond to model-specific heuristics that fail to generalize across systems, which we call "local" logic. By framing prompt optimization as a tool for model interpretability, we argue that mapping these preferred reasoning structures for LLMs is an important prerequisite for effectively collaborating with superhuman intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいてより洗練されたパフォーマンスを達成するため、現在のアーキテクチャはフロンティアモデルの内部ヒューリスティックスにとって重要なプロキシとなる。
創発的推論の特徴付けは、長期的な解釈可能性と安全性に不可欠である。
さらに、自然言語がAGIシステムと対話するための主要なインターフェースになる可能性が高いため、これらのプロセスをどのように変更するかを理解することが不可欠である。
本研究では、遺伝的パレート(GEPA)のカスタムバリアントを用いて、科学的推論タスクのプロンプトを体系的に最適化し、プロンプトが推論行動にどのように影響するかを分析する。
我々は, GEPA最適化プロンプトに固有の構造パターンと論理的ヒューリスティックスについて検討し, その伝達性と脆性について検討した。
科学的推論の利得は、しばしば「局所的」論理と呼ばれるシステム全体の一般化に失敗するモデル固有のヒューリスティックと一致することが判明した。
モデル解釈可能性のツールとしてプロンプト最適化をフレーミングすることにより、これらの所望の推論構造をLLMにマッピングすることが、超人的知能と効果的に協調する上で重要な前提条件であると論じる。
関連論文リスト
- Do LLMs Dream of Discrete Algorithms? [0.7646713951724011]
大規模言語モデル(LLM)は、人工知能の風景を急速に変化させてきた。
確率的推論への依存は、厳密な論理的推論を必要とする領域における有効性を制限する。
本稿では,論理ベースの推論モジュールでLLMを増強するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-29T22:03:01Z) - LogiDynamics: Unraveling the Dynamics of Inductive, Abductive and Deductive Logical Inferences in LLM Reasoning [74.0242521818214]
本稿では,大言語モデル(LLM)におけるインダクティブ(システム1)と帰納的/帰納的(システム2)の推論の比較力学を体系的に検討する。
我々は、制御されたアナログ推論環境、多様度(テキスト、視覚、記号)、難易度、タスク形式(MCQ/フリーテキスト)を利用する。
我々の分析によると、System 2のパイプラインは一般的に、特に視覚的/象徴的なモダリティや難しいタスクにおいて優れており、System 1はテキストやより簡単な問題に対して競争力がある。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools [19.70178343422698]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
私たちのフレームワークにおける重要な革新はMind-Mapエージェントです。
DeepSeek-R1にデプロイすると、パブリックモデル間で新しいSOTA(State-of-the-art)を実現する。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
バッチ推論前のウォームアップフェーズにおいて,LLMの論理的推論能力を高めるために,Reversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。