論文の概要: How Likely Do LLMs with CoT Mimic Human Reasoning?
- arxiv url: http://arxiv.org/abs/2402.16048v2
- Date: Thu, 10 Oct 2024 07:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:56.863794
- Title: How Likely Do LLMs with CoT Mimic Human Reasoning?
- Title(参考訳): CoTのマイクロ・ヒューマン・推論でLLMはどんなものか?
- Authors: Guangsheng Bao, Hongbo Zhang, Cunxiang Wang, Linyi Yang, Yue Zhang,
- Abstract要約: CoT(Chain-of-Thought)は,Large Language Models(LLMs)から推論能力を引き出すための,有望なテクニックとして登場した。
本稿では,LLMの推論過程を人間と比較することにより,その基盤となるメカニズムを診断する。
実験により, LLMは因果連鎖から逸脱することが多く, 相関関係や潜在的な整合性誤差が生じることが判明した。
- 参考スコア(独自算出の注目度): 31.86489714330338
- License:
- Abstract: Chain-of-thought (CoT) emerges as a promising technique to elicit reasoning capabilities from Large Language Models (LLMs). However, it does not always improve task performance or accurately represent reasoning processes, leaving unresolved questions around its usage. In this paper, we diagnose the underlying mechanism by comparing the reasoning process of LLMs with humans, using causal analysis to understand the relationships between the problem instruction, reasoning, and answer in both LLMs and humans. Our empirical study reveals that LLMs often deviate from a causal chain, resulting in spurious correlations and potential consistency errors (inconsistent reasoning and answer). We also examine various factors influencing the causal structure, finding that in-context learning with examples strengthens it while post-training techniques like supervised fine-tuning and reinforcement learning on human feedback weaken it. To our surprise, the causal structure cannot be strengthened by enlarging the model size, urging research on new techniques. We hope this preliminary study will shed light on the understanding and further improvement of the reasoning process in LLMs.
- Abstract(参考訳): CoT(Chain-of-Thought)は,Large Language Models(LLM)から推論能力を引き出すための,有望なテクニックとして登場した。
しかし、常にタスクパフォーマンスを改善したり、推論プロセスを正確に表現したりすることはせず、その使用に関する未解決の疑問を残している。
本稿では, LLMの推論過程を人間と比較し, 因果解析を用いて, LLMと人間の両方における問題指導, 推論, 解答の関連性を理解することによって, 基礎的なメカニズムを診断する。
我々の実証研究は、LLMが因果連鎖から逸脱することがしばしばあり、結果として、素早い相関と潜在的な一貫性の誤り(一貫性のない推論と答え)が生じることを示した。
また、因果構造に影響を及ぼす様々な要因について検討し、実例による文脈内学習が強化する一方で、教師付き微調整や人的フィードバックに対する強化学習といったポストトレーニング手法が弱まることを見出した。
驚いたことに、モデルのサイズを大きくすることで因果構造を補強することができず、新しい技術の研究を奨励している。
この予備的な研究は、LSMにおける推論プロセスの理解とさらなる改善に光を当てることを願っている。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Improving Causal Reasoning in Large Language Models: A Survey [16.55801836321059]
因果推論は知性の重要な側面であり、問題解決、意思決定、世界理解に不可欠である。
大規模言語モデル(LLM)は出力に対して有理性を生成することができるが、因果推論を確実に行う能力は未だ不明である。
論文 参考訳(メタデータ) (2024-10-22T04:18:19Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Casual Significance and Consistency [12.961692839965115]
チェーン・オブ・シンキング(CoT)のような連鎖型推論手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。
本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T08:28:23Z) - From Pre-training Corpora to Large Language Models: What Factors Influence LLM Performance in Causal Discovery Tasks? [51.42906577386907]
本研究では,因果発見タスクにおけるLarge Language Models(LLM)の性能に影響を与える要因について検討する。
因果関係の頻度が高いことは、より良いモデル性能と相関し、トレーニング中に因果関係の情報に広範囲に暴露することで、因果関係の発見能力を高めることを示唆している。
論文 参考訳(メタデータ) (2024-07-29T01:45:05Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - CausalGym: Benchmarking causal interpretability methods on linguistic
tasks [52.61917615039112]
CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
論文 参考訳(メタデータ) (2024-02-19T21:35:56Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。