論文の概要: ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs
- arxiv url: http://arxiv.org/abs/2503.12918v1
- Date: Mon, 17 Mar 2025 08:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:02.258389
- Title: ThinkPatterns-21k: A Systematic Study on the Impact of Thinking Patterns in LLMs
- Title(参考訳): ThinkPatterns-21k:LLMにおける思考パターンの影響に関する体系的研究
- Authors: Pengcheng Wen, Jiaming Ji, Chi-Min Chan, Juntao Dai, Donghai Hong, Yaodong Yang, Sirui Han, Yike Guo,
- Abstract要約: モデル性能に対する様々な思考タイプの影響を包括的に分析する。
本稿では,21kの命令-応答対からなる学習データセットであるThinkPatterns-21kを紹介する。
1) より小さなモデル (30Bパラメータ) は構造化思考パターンの大部分の恩恵を受けられる一方で, 分解のような構造化思考を持つモデル (32B) は性能を低下させる。
- 参考スコア(独自算出の注目度): 15.798087244817134
- License:
- Abstract: Large language models (LLMs) have demonstrated enhanced performance through the \textit{Thinking then Responding} paradigm, where models generate internal thoughts before final responses (aka, System 2 thinking). However, existing research lacks a systematic understanding of the mechanisms underlying how thinking patterns affect performance across model sizes. In this work, we conduct a comprehensive analysis of the impact of various thinking types on model performance and introduce ThinkPatterns-21k, a curated dataset comprising 21k instruction-response pairs (QA) collected from existing instruction-following datasets with five thinking types. For each pair, we augment it with five distinct internal thinking patterns: one unstructured thinking (monologue) and four structured variants (decomposition, self-ask, self-debate and self-critic), while maintaining the same instruction and response. Through extensive evaluation across different model sizes (3B-32B parameters), we have two key findings: (1) smaller models (<30B parameters) can benefit from most of structured thinking patterns, while larger models (32B) with structured thinking like decomposition would degrade performance and (2) unstructured monologue demonstrates broad effectiveness across different model sizes. Finally, we released all of our datasets, checkpoints, training logs of diverse thinking patterns to reproducibility, aiming to facilitate further research in this direction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最終応答(つまりシステム2思考)の前に内部思想を生成する、‘textit{Thinking then Responding} パラダイムを通じて、パフォーマンスの向上を実証している。
しかし、既存の研究では、思考パターンがモデルのサイズにまたがるパフォーマンスにどのように影響するかというメカニズムの体系的な理解が欠如している。
本研究では、モデル性能に対する様々な思考型の影響を包括的に分析し、5つの思考型を持つ既存の指示追従データセットから収集された21kの命令応答ペア(QA)からなる学習データセットThinkPatterns-21kを紹介する。
1つの非構造的思考(モノローグ)と4つの構造的変形(分解、自己アスク、自己議論、自己批判)の5つの内部的思考パターンを、同じ指示と反応を維持しながら拡張する。
モデルサイズ(3B-32Bパラメータ)を幅広く評価することにより,(1)より小さなモデル ((<30Bパラメータ) は構造的思考パターンのほとんどから恩恵を受けることができるが,(2) 分解のような構造的思考を持つモデル (32B) は性能を低下させ,(2) 非構造的モノローグはモデルサイズに対して幅広い効果を示す。
最後に、私たちはすべてのデータセット、チェックポイント、再現性のために多様な思考パターンのログをトレーニングしました。
関連論文リスト
- A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Benchmarking Mental State Representations in Language Models [9.318796743761224]
モデルの内部的な精神状態の表現に関する研究は依然として限られている。
最近の研究は、LMが自分自身や他人の信念を表現できることを示すのに、プローブを用いている。
モデルサイズが異なる様々なLMタイプを用いた広範囲なベンチマークを報告する。
我々は,素早い変化が心的タスクの理論における探索的パフォーマンスにどのように影響するかを初めて研究する。
論文 参考訳(メタデータ) (2024-06-25T12:51:06Z) - Brainstorming Brings Power to Large Language Models of Knowledge Reasoning [17.14501985068287]
大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。
近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。
本稿では,インプットに基づくマルチモデルブレインストーミングを提案する。ブレインストーミングのためのグループに,複数の推論と再推論のラウンドを組み込んだ結果,コンセンサスな回答が得られた。
論文 参考訳(メタデータ) (2024-06-02T14:47:14Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Exploring The Landscape of Distributional Robustness for Question
Answering Models [47.178481044045505]
調査は350以上のモデルと16の質問応答データセットにまたがる。
多くの場合、モデルのバリエーションは堅牢性に影響を与えない。
我々は,質問応答モデルに対するロバストネスの傾向をさらに分析するよう研究者に促すため,すべての評価を公表する。
論文 参考訳(メタデータ) (2022-10-22T18:17:31Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。