Fugu-MT 論文翻訳(概要): StyleBench: Evaluating thinking styles in Large Language Models

論文の概要: StyleBench: Evaluating thinking styles in Large Language Models

arxiv url: http://arxiv.org/abs/2509.20868v1
Date: Thu, 25 Sep 2025 08:00:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-26 20:58:12.776167
Title: StyleBench: Evaluating thinking styles in Large Language Models
Title（参考訳）: StyleBench: 大規模言語モデルにおける思考スタイルの評価
Authors: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei,
Abstract要約: StyleBenchは、様々なタスクやモデルにわたる推論スタイルを評価するための総合的なベンチマークである。思考の連鎖(CoT)、思考のツリー(ToT)、思考のアルゴリズム(AoT)、思考のスケッチ(SoT)、思考の連鎖(CoD)の5つの代表的な推論スタイルを評価する。我々の大規模分析により、単一のスタイルが普遍的に最適でないことが判明した。
参考スコア（独自算出の注目度）: 19.324830531710024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.
Abstract（参考訳）: LLM(Large Language Models)の有効性は、そのプロンプトで使用される推論戦略や思考スタイルに大きく影響されている。しかしながら、これらの推論スタイル、モデルアーキテクチャ、タスクタイプ間の相互作用は、いまだに理解されていない。この問題を解決するために、さまざまなタスクやモデルにまたがる推論スタイルを体系的に評価するための総合的なベンチマークであるStyleBenchを紹介します。代表的な5つの推論手法として,5つの推論タスク (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, DeepSeek) を用いて思考のチェーン (CoT), 思考のツリー (ToT), 思考のアルゴリズム (AoT), 思考のスケッチ (SoT), 思考のチェーン (CoD) を評価する。我々の大規模分析により、単一のスタイルが普遍的に最適でないことが判明した。探索に基づく手法(AoT,ToT)はオープンエンド問題に優れるが、大規模モデルを必要とする一方で、簡潔なスタイル(SoT,CoD)は適切に定義されたタスクにおいて急激な効率向上を実現する。さらに、我々は重要な行動パターンを識別する: より小さなモデルは出力命令に従うのによく失敗し、推測をデフォルトにし、一方でロバスト性はスケールの関数として現れる。我々の発見は、特定の制約に基づいて最適な推論戦略を選択するための重要なロードマップを提供しており、ベンチマークをhttps://github.com/JamesJunyuGuo/Style_Bench.comに公開しています。

関連論文リスト

JT-Math: A Multi-Stage Framework for Advanced Mathematical Reasoning in Large Language Models [15.054016881151254]
本稿では,ベース,インストラクション,思考バージョンで構成される一連のオープンソースモデルであるJT-Math-8Bを紹介する。 Instruct Model は Supervised Fine-Tuning (SFT) と GRPO-based reinforcement learning (RL) によって直接的かつ簡潔な回答に最適化されている。思考モデルは、Long Chain-of-Thought (Long CoT)アプローチを用いて、SFTと新しい多段階RLカリキュラムを組み合わせた複雑な問題解決のために訓練されている。
論文参考訳（メタデータ） (2025-07-26T02:45:10Z)
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。 GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-06-18T21:15:59Z)
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文参考訳（メタデータ） (2025-05-15T11:31:02Z)
Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文参考訳（メタデータ） (2025-04-30T14:01:45Z)
Visualizing Thought: Conceptual Diagrams Enable Robust Combinatorial Planning in LMMs [59.66595230543127]
概念図(例えば、人間によって推論を助けるために描かれたスケッチ)は、精神モデルを外部化する。大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。我々は、LMMが複数の(自己生成)概念図の連鎖を通して推論できるゼロショットフレームワークであるVisual Thinkingを提案する。
論文参考訳（メタデータ） (2025-03-14T18:27:02Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
Large Language Models Are Reasoning Teachers [9.290757451344673]
ファインチューンCoTは、非常に大きな教師モデルからより小さなモデルへの推論サンプルを生成する方法である。また,Fin-Tune-CoTは,多くのタスクにおいて,プロンプトベースベースラインや教師モデルよりもはるかに優れた小型モデルにおいて,相当な推論能力を実現する。
論文参考訳（メタデータ） (2022-12-20T08:24:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。