Fugu-MT 論文翻訳(概要): HEART: Emotionally-driven test-time scaling of Language Models

論文の概要: HEART: Emotionally-driven test-time scaling of Language Models

arxiv url: http://arxiv.org/abs/2509.22876v2
Date: Fri, 03 Oct 2025 18:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 14:28:10.852406
Title: HEART: Emotionally-driven test-time scaling of Language Models
Title（参考訳）: HEART: 言語モデルの感情駆動型テストタイムスケーリング
Authors: Gabriela Pinto, Palash Goyal, Yiwen Song, Souradip Chakraborty, Zifeng Wang, Tomas Pfister, Hamid Palangi,
Abstract要約: HEARTは感情駆動型プロンプトを反復的自己補正に用いる新しいフレームワークである。我々は、OlympiadBench、HumanityのLast Exam、SimpleQAなど、挑戦的な推論ベンチマークに関するフレームワークを評価した。オラクル検証器によって導かれると、この感情的プロトコルははるかに深い推論を解き放ちます。
参考スコア（独自算出の注目度）: 45.62263382784642
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time scaling has shown considerable success in improving the performance of language models on complex reasoning tasks without requiring fine-tuning. However, current strategies such as self-reflection primarily focus on logical or structural refinement. They do not leverage the guiding potential of affective feedback. Inspired by psychological research showing that emotions can modulate cognitive performance, we introduce HEART--a novel framework that uses emotionally-driven prompts for iterative self-correction. HEART provides feedback on a model's incorrect response using a curated set of concise, emotionally charged phrases based on the six universal emotions categorized by Dr. Paul Ekman. By systematically varying the emotional tone of the feedback across iterations, our method guides the model to escape flawed reasoning paths and explore more promising alternatives. We evaluate our framework on challenging reasoning benchmarks including OlympiadBench, Humanity's Last Exam, and SimpleQA. Our results reveal a significant new phenomenon: when guided by an oracle verifier, this affective iteration protocol unlocks significantly deeper reasoning, leading to consistent and substantial increases in accuracy over state-of-the-art baselines with the same verifier. However, we also identify a critical bottleneck for practical deployment. In a verifier-free setting, it struggles to harness these gains consistently, highlighting as a key challenge for future work. Our findings suggest that the next frontier in machine reasoning may lie not just in refining logic, but also in understanding and leveraging the `HEART' of the models.
Abstract（参考訳）: テストタイムのスケーリングは、微調整を必要とせず、複雑な推論タスクにおける言語モデルの性能向上に大きく成功している。しかし、現在の自己回帰のような戦略は主に論理的あるいは構造的洗練に焦点を当てている。彼らは感情的なフィードバックの指導力を利用していない。感情が認知的パフォーマンスを調節できることを示す心理学的な研究にインスパイアされたHEARTは、感情によって引き起こされるプロンプトを反復的自己補正に利用する新しいフレームワークである。 HEARTは、ポール・エクマン博士が分類した6つの普遍的な感情に基づいて、簡潔で感情に満ちたフレーズのキュレートされたセットを使用して、モデルの誤った反応に対するフィードバックを提供する。繰り返しのフィードバックの感情的トーンを体系的に変化させることで、本手法は欠陥のある推論経路を回避し、より有望な代替手段を探索する。我々は、OlympiadBench、HumanityのLast Exam、SimpleQAなど、挑戦的な推論ベンチマークに関するフレームワークを評価した。オラクル検証器によってガイドされると、この感情的反復プロトコルははるかに深い推論を解き、同じ検証器による最先端のベースラインに対する一貫性と精度が大幅に向上する。しかし、実践的なデプロイメントにおいて重要なボトルネックも認識しています。検証不要な環境では、これらの利益を一貫して活用することに苦労し、将来の作業における重要な課題として強調している。この結果から,機械推論における次のフロンティアは,論理の精製だけでなく,モデルの「HEART」の理解と活用にも有効である可能性が示唆された。

関連論文リスト

ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools -- From Consensus Learning to Ambiguity-Driven Emotion Reasoning [67.22219034602514]
ADEPT(Agentic Decoding of Emotion via Evidence Probing Tools)は,感情認識をマルチターン探索プロセスとして再構成するフレームワークである。 ADEPTはSLLMを進化する候補感情を維持するエージェントに変換し、専用のセマンティックおよび音響探査ツールを適応的に呼び出す。 ADEPTは、ほとんどの設定において主感情の精度を向上し、微妙な感情の特徴を著しく改善することを示した。
論文参考訳（メタデータ） (2026-02-13T08:33:37Z)
Decoding Ambiguous Emotions with Test-Time Scaling in Audio-Language Models [18.059483722792077]
テスト時間スケーリング下でのALMを用いた音声におけるあいまいな感情認識のための最初のベンチマークを紹介する。本評価では,8つの最先端ALMと5つのTTS戦略を,3つの顕著な音声感情データセットに対して体系的に比較した。私たちのベンチマークは、より堅牢でコンテキスト対応で感情的にインテリジェントな音声ベースのAIシステムを開発するための基盤を確立します。
論文参考訳（メタデータ） (2026-02-01T07:41:57Z)
Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。 GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文参考訳（メタデータ） (2026-01-07T23:05:17Z)
Learning What to Attend First: Modality-Importance-Guided Reasoning for Reliable Multimodal Emotion Understanding [50.014363382140324]
モダリティ・コンパタンス(MI)は、感情に支配的なモダリティを識別するためのシンプルで効果的なメカニズムである。 MIGRは推論シーケンスを再編成し、その説明は対象の感情に対して最も重要なモダリティから始まる。その結果、MIGRは推論信頼性を大幅に改善し、感情的に矛盾した説明を伴う正しい予測の事例を減少させることがわかった。
論文参考訳（メタデータ） (2025-12-02T12:29:41Z)
Detecting Emotional Dynamic Trajectories: An Evaluation Framework for Emotional Support in Language Models [6.810484095299127]
感情支援は人間とAIの相互作用における中核的な能力であり、心理学的カウンセリング、ロールプレイ、コンパニオンシップなどの応用がある。大規模言語モデル(LLM)の既存の評価は、しばしば短く静的な対話に依存し、感情的サポートの動的で長期的な性質を捉えない。本フレームワークは,328の情緒的文脈と1,152の外乱イベントからなる大規模ベンチマークを構築し,進化する対話シナリオ下での現実的な情緒的変化をシミュレートする。
論文参考訳（メタデータ） (2025-11-12T05:47:28Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Mechanistic Interpretability of Emotion Inference in Large Language Models [16.42503362001602]
感情表現は大規模言語モデルにおいて特定の領域に機能的に局所化されていることを示す。我々は,環境刺激の評価から感情が出現することを示すための認知的評価理論を導いた。この研究は、因果的に介入し、感情的なテキスト生成を正確に形作る新しい方法を強調している。
論文参考訳（メタデータ） (2025-02-08T08:11:37Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition [5.303788012608604]
我々は、InterSPEECH 2009 Emotion Challenge -- 初めてスピーチ感情認識(SER)チャレンジを再考する。我々は,SER研究の大きな進歩を示す一連の深層学習モデルを評価する。
論文参考訳（メタデータ） (2024-06-10T15:55:06Z)
ECR-Chain: Advancing Generative Language Models to Better Emotion-Cause Reasoners through Reasoning Chains [61.50113532215864]
CEE(Causal Emotion Entailment)は、ターゲット発話で表現される感情を刺激する会話における因果発話を特定することを目的としている。 CEEにおける現在の研究は、主に会話のセマンティックな相互作用と感情的な相互作用をモデル化することに焦点を当てている。本研究では,会話中の感情表現から刺激を推測するために,ステップバイステップの推論手法である感情・因果関係(ECR-Chain)を導入する。
論文参考訳（メタデータ） (2024-05-17T15:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。