Fugu-MT 論文翻訳(概要): Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance

論文の概要: Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance

arxiv url: http://arxiv.org/abs/2504.09586v1
Date: Sun, 13 Apr 2025 14:12:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 03:59:22.099604
Title: Short-Path Prompting in LLMs: Analyzing Reasoning Instability and Solutions for Robust Performance
Title（参考訳）: LLMにおけるショートパスプロンプト:ロバスト性能に対する推論不安定性と解の解析
Authors: Zuoli Tang, Junjie Ou, Kaiqin Hu, Chunwei Wu, Zhaoxin Huan, Chilin Fu, Xiaolu Zhang, Jun Zhou, Chenliang Li,
Abstract要約: 大規模言語モデル (LLM) の推論は、主にチェーン・オブ・シント (CoT) のアプローチによるものである。 LLMは、推論に関連する質問に応答するときに、長くて詳細なCoT経路を提供するように、命令調整される。人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促す。
参考スコア（独自算出の注目度）: 33.16322104912836
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have witnessed significant progress in large language models' (LLMs) reasoning, which is largely due to the chain-of-thought (CoT) approaches, allowing models to generate intermediate reasoning steps before reaching the final answer. Building on these advances, state-of-the-art LLMs are instruction-tuned to provide long and detailed CoT pathways when responding to reasoning-related questions. However, human beings are naturally cognitive misers and will prompt language models to give rather short responses, thus raising a significant conflict with CoT reasoning. In this paper, we delve into how LLMs' reasoning performance changes when users provide short-path prompts. The results and analysis reveal that language models can reason effectively and robustly without explicit CoT prompts, while under short-path prompting, LLMs' reasoning ability drops significantly and becomes unstable, even on grade-school problems. To address this issue, we propose two approaches: an instruction-guided approach and a fine-tuning approach, both designed to effectively manage the conflict. Experimental results show that both methods achieve high accuracy, providing insights into the trade-off between instruction adherence and reasoning accuracy in current models.
Abstract（参考訳）: 近年、大規模言語モデル(LLM)の推論が著しく進歩しており、これは主にチェーン・オブ・シント(CoT)アプローチによるものであり、最終回答に到達する前に中間的推論ステップを生成することができる。これらの進歩に基づいて、最先端のLCMは、推論に関連する質問に応答するときに、長く詳細なCoT経路を提供するように、命令的に調整される。しかしながら、人間は自然に認知的な惨事であり、言語モデルにかなり短い反応を与えるよう促すため、CoT推論と重大な対立を引き起こす。本稿では,ユーザがショートパスプロンプトを提供すると,LCMの推論性能がどう変化するかを検討する。結果と分析結果から,言語モデルがCoTプロンプトを明示せずに効果的かつ堅牢に推論できることが判明した。この問題に対処するために,命令誘導アプローチと微調整アプローチの2つのアプローチを提案する。実験の結果,両手法は高い精度を示し,現行モデルにおける命令順守と推論精度のトレードオフについて考察した。

関連論文リスト

PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models [56.063571989395946]
推論可能な大規模言語モデル(LLM)は、複雑な推論タスクにおいて強力な性能を示す。最近のアプローチでは、長い推論や短い推論をいつ適用すべきかを手動で決めることによって、この問題に対処しようとしている。本稿では,LLMが生成した推論経路を動的に圧縮できる動的かつモデルに依存しないフレームワークであるAuto Long-Short Reasoning (AutoL2S)を提案する。
論文参考訳（メタデータ） (2025-05-28T17:59:53Z)
Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文参考訳（メタデータ） (2025-04-18T19:32:55Z)
Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-14T06:32:45Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models [42.95876831743256]
大規模言語モデル(LLM)は、Chains-of-Thoughtプロンプトを通じて、さまざまな推論タスクにまたがる創発的な機能を示している。本稿では,LLMが高速かつ低速な推論手法を自律的に選択できることの課題に対処する。 LLMが高速に高信頼の解を識別するタスクに指定された「Fast」と、LLMが複雑だと認識するタスクに割り当てられた「Slow」という2つの異なる経路に分類する動的意思決定フレームワークを導入する。
論文参考訳（メタデータ） (2024-07-01T06:45:13Z)
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文参考訳（メタデータ） (2024-02-06T03:41:12Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文参考訳（メタデータ） (2023-10-24T19:46:04Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文参考訳（メタデータ） (2023-07-17T00:54:10Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)
Shortcut Learning of Large Language Models in Natural Language Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文参考訳（メタデータ） (2022-08-25T03:51:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。