論文の概要: Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
- arxiv url: http://arxiv.org/abs/2410.21333v4
- Date: Fri, 13 Jun 2025 19:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:28.88555
- Title: Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
- Title(参考訳): Mind Your Step (ステップによって): 思考が人間を悪くするタスクのパフォーマンスを低下させる
- Authors: Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths,
- Abstract要約: CoT(Chain-of- Thought)プロンプトは,大規模言語やマルチモーダルモデルの性能向上に広く利用されている。
本稿では,人間のパフォーマンスを損なう心理学文献からの6つの代表的課題に焦点を当てた。
これら3つのタスクにおいて、最先端モデルはCoTによる大幅な性能低下を示す。
モデルと人間が完全に平行な認知過程を示すわけではないが、人間の思考がネガティブな結果をもたらす場合を考えると、それがモデルに悪影響を及ぼすような設定を特定するのに役立つ。
- 参考スコア(独自算出の注目度): 9.542503507653494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-thought (CoT) prompting has become a widely used strategy for improving large language and multimodal model performance. However, it is still an open question under which settings CoT systematically reduces performance. In this paper, we seek to identify the characteristics of tasks where CoT reduces performance by drawing inspiration from cognitive psychology, focusing on six representative tasks from the psychological literature where deliberation hurts performance in humans. In three of these tasks, state-of-the-art models exhibit significant performance drop-offs with CoT (up to 36.3\% absolute accuracy for OpenAI o1-preview compared to GPT-4o), while in others, CoT effects are mixed, with positive, neutral, and negative changes. While models and humans do not exhibit perfectly parallel cognitive processes, considering cases where thinking has negative consequences for humans helps identify settings where it negatively impacts models. By connecting the literature on human verbal thinking and deliberation with evaluations of CoT, we offer a perspective for understanding the impact of inference-time reasoning.
- Abstract(参考訳): CoT(Chain-of- Thought)プロンプトは,大規模言語やマルチモーダルモデルの性能向上に広く利用されている。
しかし、CoTが体系的にパフォーマンスを低下させるのは、まだオープンな問題である。
本稿では,認知心理学からインスピレーションを得て,CoTがパフォーマンスを低下させるタスクの特徴を明らかにする。
これら3つのタスクにおいて、最先端のモデルではCoTによる大幅なパフォーマンス低下を示し(GPT-4oと比較して、OpenAI o1-previewの絶対精度は36.3倍)、他のモデルではCoT効果が混合され、正、中性、負の変化がある。
モデルと人間が完全に平行な認知過程を示すわけではないが、人間の思考がネガティブな結果をもたらす場合を考えると、それがモデルに悪影響を及ぼすような設定を特定するのに役立つ。
人間の言語思考に関する文献と、CoTの評価とを結びつけることによって、推論時間推論の影響を理解するための視点を提供する。
関連論文リスト
- Improving Question Embeddings with Cognitiv Representation Optimization for Knowledge Tracing [77.14348157016518]
知識追跡(KT)は,学生の知識状況の変化を追跡し,過去の回答記録に基づいて将来の回答を予測することを目的としている。
KTモデリングに関する最近の研究は、既存の未更新の学習相互作用の記録に基づいて、学生の将来のパフォーマンスを予測することに焦点を当てている。
本稿では、動的プログラミングアルゴリズムを用いて認知表現の構造を最適化する知識追跡モデルのための認知表現最適化を提案する。
論文 参考訳(メタデータ) (2025-04-05T09:32:03Z) - Large (Vision) Language Models are Unsupervised In-Context Learners [14.930827851769276]
完全教師なし適応のための共同推論フレームワークを導入する。
ゼロショット推論とは異なり、関節推論は与えられたタスクの全ての入力に対して同時に予測を行う。
我々の実験は、標準のゼロショットアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-03T07:33:02Z) - Do Language Models Understand the Cognitive Tasks Given to Them? Investigations with the N-Back Paradigm [9.577716124021029]
GPT 3.5の2-backタスクと3-backタスクのパフォーマンス低下は、人間のように動作するメモリ容量の限界を反映している、と我々は主張する。
これらのタスクにおける様々なパフォーマンスレベルのオープンソース言語モデルを解析することにより、タスク理解とタスクセットのメンテナンスの制限を反映していることを示す。
論文 参考訳(メタデータ) (2024-12-24T03:06:52Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [38.63497972682599]
本研究では,3つのシナリオにまたがるアライメント手法の性能について検討した。
我々の評価は、対話システム、推論、数学的問題解決、質問応答、真理性、マルチタスク理解など、幅広いタスクにまたがる。
重要な観察では、アライメント手法は、より小さなトレーニングデータサブセットで最適なパフォーマンスを達成し、推論タスクにおいて限られた効果を示すが、数学的問題解決には著しく影響し、特に真理性に影響を及ぼす命令付きモデルを用いることが示されている。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Prompt Perturbation Consistency Learning for Robust Language Models [47.021022978847036]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにおいて印象的なパフォーマンスを示している。
微調整を十分に行うと,識別モデルに匹敵するIC-SF性能が得られることを示す。
クリーンサンプルと摂動サンプルの損失の分散を規則化して機能する,効率的な緩和手法であるPrompt Perturbation Consistency Learning(PPCL)を提案する。
論文 参考訳(メタデータ) (2024-02-24T15:00:58Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Modeling Score Distributions and Continuous Covariates: A Bayesian
Approach [8.772459063453285]
連続共変量に対するマッチングと非マッチスコア分布の生成モデルを構築した。
混合モデルを用いて任意の分布と局所基底関数をキャプチャする。
提案手法の精度と有効性を示す3つの実験を行った。
論文 参考訳(メタデータ) (2020-09-21T02:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。