論文の概要: Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2602.24060v1
- Date: Fri, 27 Feb 2026 14:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.467967
- Title: Task Complexity Matters: An Empirical Study of Reasoning in LLMs for Sentiment Analysis
- Title(参考訳): タスク複雑度:感性分析のためのLLMにおける推論の実証的研究
- Authors: Donghao Huang, Zhaoxia Wang,
- Abstract要約: 推論能力を持つ大規模言語モデル(LLM)は、推論が言語タスク全体のパフォーマンスを普遍的に改善する、という魅力的な物語を生み出している。
7つのモデルファミリーにまたがる504構成を包括的に評価することで,この主張を検証した。
その結果, 推論の有効性は, タスク依存的であり, 課題の多い仮定であることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.1036545320600095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with reasoning capabilities have fueled a compelling narrative that reasoning universally improves performance across language tasks. We test this claim through a comprehensive evaluation of 504 configurations across seven model families--including adaptive, conditional, and reinforcement learning-based reasoning architectures--on sentiment analysis datasets of varying granularity (binary, five-class, and 27-class emotion). Our findings reveal that reasoning effectiveness is strongly task-dependent, challenging prevailing assumptions: (1) Reasoning shows task-complexity dependence--binary classification degrades up to -19.9 F1 percentage points (pp), while 27-class emotion recognition gains up to +16.0pp; (2) Distilled reasoning variants underperform base models by 3-18 pp on simpler tasks, though few-shot prompting enables partial recovery; (3) Few-shot learning improves over zero-shot in most cases regardless of model type, with gains varying by architecture and task complexity; (4) Pareto frontier analysis shows base models dominate efficiency-performance trade-offs, with reasoning justified only for complex emotion recognition despite 2.1x-54x computational overhead. We complement these quantitative findings with qualitative error analysis revealing that reasoning degrades simpler tasks through systematic over-deliberation, offering mechanistic insight beyond the high-level overthinking hypothesis.
- Abstract(参考訳): 推論能力を持つ大規模言語モデル(LLM)は、推論が言語タスク全体のパフォーマンスを普遍的に改善する、という魅力的な物語を生み出している。
この主張は、適応性、条件性、強化学習に基づく推論アーキテクチャを含む7つのモデルファミリーの504構成を包括的に評価し、様々な粒度(バイナリ、5クラス、27クラスの感情)の感情分析データセットを用いて検証する。
その結果, 推論の有効性はタスク依存的であり, 難解な仮定であることがわかった。(1) 推論はタスクの複雑度依存性を最大で19.9 F1パーセンテージポイント (pp) まで低下する一方, (2) 単純なタスクにおいて,27クラスの感情認識が最大で+16.0ppまで低下する, 2) 単純なタスクでは3.18pp以下に低下する,(3) ショットプロンプトは部分的リカバリが可能である,(3) ファウショット学習はモデルの種類に関わらずゼロショットよりも改善し, アーキテクチャやタスクの複雑さによって利得が変化する, (4) パウトフロンティア分析では, ベースモデルでは, 効率と効率の両面でのトレードオフが支配され, 複雑な感情認識は2.1-54倍のオーバーヘッドで正当化された。
これらの定量的発見を質的誤り解析で補完し、推論が体系的な過度な検討を通じてより単純なタスクを分解し、高レベルの過度な過大評価仮説を超えて機械的な洞察を与えることを示した。
関連論文リスト
- Scaling Trends for Multi-Hop Contextual Reasoning in Mid-Scale Language Models [0.0]
大規模言語モデルにおけるマルチホップ文脈推論の制御に関する研究について述べる。
マルチエージェントシステムは逆パターンを示し、ルールベースのメソッドが失敗する推論タスクを最大80%達成する。
論文 参考訳(メタデータ) (2026-01-06T20:18:55Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - An Analysis of Architectural Impact on LLM-based Abstract Visual Reasoning: A Systematic Benchmark on RAVEN-FAIR [0.0]
GPT-4.1-Miniは全アーキテクチャで最高精度を達成した。
それぞれのモデルは、アーキテクチャ設計に対して異なる感度パターンを示し、推論の有効性がモデル固有のものであることを強調した。
論文 参考訳(メタデータ) (2025-11-14T22:50:22Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff in Language Models [6.312798900093575]
大規模言語モデル (LLM) は複雑な数学的ベンチマークでは優れた性能を得るが、基本的な数学的推論では失敗することがある。
本稿では,正確さと過度に考えることの基本的なトレードオフに焦点を当てる。
本研究は,総合モデル評価のための高精度とトークン効率を組み合わせた調和平均計量であるOverthinking Scoreを紹介する。
論文 参考訳(メタデータ) (2025-07-05T12:31:17Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - Discovering Hierarchical Latent Capabilities of Language Models via Causal Representation Learning [22.32435186013626]
本稿では,いくつかの潜在能力因子の線形変換としてベンチマーク性能をモデル化した因果表現学習フレームワークを提案する。
このアプローチを6つのベンチマークで評価された1500以上のモデルを含む包括的データセットに適用することにより、観測された性能変動を確実に説明できる簡潔な3ノード線形因果構造を同定する。
論文 参考訳(メタデータ) (2025-06-12T06:07:42Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Follow the Path: Reasoning over Knowledge Graph Paths to Improve LLM Factuality [13.453581744429352]
大規模な推論モデルから導出することで、推論トレースの事実性を向上する手法であるfs1を紹介する。
我々は、3.9Kの事実的根拠に基づく推論トレースに基づいて8つの命令調整型大規模言語モデル(LLM)を微調整する。
その結果,fs1調整モデルでは,命令調整モデルよりも6~14絶対点の並列サンプリングの方が優れていた。
論文 参考訳(メタデータ) (2025-05-16T11:39:33Z) - Recursive Decomposition of Logical Thoughts: Framework for Superior Reasoning and Knowledge Propagation in Large Language Models [1.4956870931936515]
RDoLTは大規模言語モデルの推論性能を大幅に向上させる新しいフレームワークである。
RDoLTは、(1)複雑な推論タスクを進歩的複雑性のサブタスクに分解すること、(2)最も有望な推論思考を特定するための高度な選択とスコアリング機構を使用すること、(3)人間の学習を模倣する知識伝達モジュールを統合すること、の3つの主要なイノベーションに基づいて構築されている。
提案手法は,GSM8K,SVAMP,MultiArithm,LastLetterConcatenation,Gaokao2023 Mathなど,複数のベンチマークで評価された。
論文 参考訳(メタデータ) (2025-01-03T02:55:44Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。