論文の概要: HEART: Emotionally-driven test-time scaling of Language Models
- arxiv url: http://arxiv.org/abs/2509.22876v2
- Date: Fri, 03 Oct 2025 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.852406
- Title: HEART: Emotionally-driven test-time scaling of Language Models
- Title(参考訳): HEART: 言語モデルの感情駆動型テストタイムスケーリング
- Authors: Gabriela Pinto, Palash Goyal, Yiwen Song, Souradip Chakraborty, Zifeng Wang, Tomas Pfister, Hamid Palangi,
- Abstract要約: HEARTは感情駆動型プロンプトを反復的自己補正に用いる新しいフレームワークである。
我々は、OlympiadBench、HumanityのLast Exam、SimpleQAなど、挑戦的な推論ベンチマークに関するフレームワークを評価した。
オラクル検証器によって導かれると、この感情的プロトコルははるかに深い推論を解き放ちます。
- 参考スコア(独自算出の注目度): 45.62263382784642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling has shown considerable success in improving the performance of language models on complex reasoning tasks without requiring fine-tuning. However, current strategies such as self-reflection primarily focus on logical or structural refinement. They do not leverage the guiding potential of affective feedback. Inspired by psychological research showing that emotions can modulate cognitive performance, we introduce HEART--a novel framework that uses emotionally-driven prompts for iterative self-correction. HEART provides feedback on a model's incorrect response using a curated set of concise, emotionally charged phrases based on the six universal emotions categorized by Dr. Paul Ekman. By systematically varying the emotional tone of the feedback across iterations, our method guides the model to escape flawed reasoning paths and explore more promising alternatives. We evaluate our framework on challenging reasoning benchmarks including OlympiadBench, Humanity's Last Exam, and SimpleQA. Our results reveal a significant new phenomenon: when guided by an oracle verifier, this affective iteration protocol unlocks significantly deeper reasoning, leading to consistent and substantial increases in accuracy over state-of-the-art baselines with the same verifier. However, we also identify a critical bottleneck for practical deployment. In a verifier-free setting, it struggles to harness these gains consistently, highlighting as a key challenge for future work. Our findings suggest that the next frontier in machine reasoning may lie not just in refining logic, but also in understanding and leveraging the `HEART' of the models.
- Abstract(参考訳): テストタイムのスケーリングは、微調整を必要とせず、複雑な推論タスクにおける言語モデルの性能向上に大きく成功している。
しかし、現在の自己回帰のような戦略は主に論理的あるいは構造的洗練に焦点を当てている。
彼らは感情的なフィードバックの指導力を利用していない。
感情が認知的パフォーマンスを調節できることを示す心理学的な研究にインスパイアされたHEARTは、感情によって引き起こされるプロンプトを反復的自己補正に利用する新しいフレームワークである。
HEARTは、ポール・エクマン博士が分類した6つの普遍的な感情に基づいて、簡潔で感情に満ちたフレーズのキュレートされたセットを使用して、モデルの誤った反応に対するフィードバックを提供する。
繰り返しのフィードバックの感情的トーンを体系的に変化させることで、本手法は欠陥のある推論経路を回避し、より有望な代替手段を探索する。
我々は、OlympiadBench、HumanityのLast Exam、SimpleQAなど、挑戦的な推論ベンチマークに関するフレームワークを評価した。
オラクル検証器によってガイドされると、この感情的反復プロトコルははるかに深い推論を解き、同じ検証器による最先端のベースラインに対する一貫性と精度が大幅に向上する。
しかし、実践的なデプロイメントにおいて重要なボトルネックも認識しています。
検証不要な環境では、これらの利益を一貫して活用することに苦労し、将来の作業における重要な課題として強調している。
この結果から,機械推論における次のフロンティアは,論理の精製だけでなく,モデルの「HEART」の理解と活用にも有効である可能性が示唆された。
関連論文リスト
- FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Mechanistic Interpretability of Emotion Inference in Large Language Models [16.42503362001602]
感情表現は大規模言語モデルにおいて特定の領域に機能的に局所化されていることを示す。
我々は,環境刺激の評価から感情が出現することを示すための認知的評価理論を導いた。
この研究は、因果的に介入し、感情的なテキスト生成を正確に形作る新しい方法を強調している。
論文 参考訳(メタデータ) (2025-02-08T08:11:37Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition [5.303788012608604]
我々は、InterSPEECH 2009 Emotion Challenge -- 初めてスピーチ感情認識(SER)チャレンジを再考する。
我々は,SER研究の大きな進歩を示す一連の深層学習モデルを評価する。
論文 参考訳(メタデータ) (2024-06-10T15:55:06Z) - ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。
CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。
本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文 参考訳(メタデータ) (2024-05-17T15:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。