論文の概要: TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent
- arxiv url: http://arxiv.org/abs/2601.18700v1
- Date: Mon, 26 Jan 2026 17:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.960935
- Title: TEA-Bench: A Systematic Benchmarking of Tool-enhanced Emotional Support Dialogue Agent
- Title(参考訳): TEA-Bench: ツール強化感情支援対話エージェントのシステムベンチマーク
- Authors: Xingyu Sui, Yanyan Zhao, Yulin Hu, Jiahe Guo, Weixiang Zhao, Bing Qin,
- Abstract要約: ESC(Emotional Support Conversation)におけるツール拡張エージェント評価のための対話型ベンチマークであるTEA-Benchを紹介する。
実験により、ツール強化は一般的に感情的サポート品質を向上し、幻覚を減少させるが、その利得はキャパシティに依存していることが示された。
以上の結果から,信頼性の高い感情支援エージェントを構築する上でのツール利用の重要性が浮き彫りとなった。
- 参考スコア(独自算出の注目度): 56.45636706195345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Support Conversation requires not only affective expression but also grounded instrumental support to provide trustworthy guidance. However, existing ESC systems and benchmarks largely focus on affective support in text-only settings, overlooking how external tools can enable factual grounding and reduce hallucination in multi-turn emotional support. We introduce TEA-Bench, the first interactive benchmark for evaluating tool-augmented agents in ESC, featuring realistic emotional scenarios, an MCP-style tool environment, and process-level metrics that jointly assess the quality and factual grounding of emotional support. Experiments on nine LLMs show that tool augmentation generally improves emotional support quality and reduces hallucination, but the gains are strongly capacity-dependent: stronger models use tools more selectively and effectively, while weaker models benefit only marginally. We further release TEA-Dialog, a dataset of tool-enhanced ESC dialogues, and find that supervised fine-tuning improves in-distribution support but generalizes poorly. Our results underscore the importance of tool use in building reliable emotional support agents.
- Abstract(参考訳): 感情的支援会話は、感情的な表現だけでなく、信頼できる指導を提供するための道具的支援も必要である。
しかし、既存のESCシステムとベンチマークは主に、テキストのみの設定における感情的なサポートに焦点を当てており、外部ツールが事実上の接地を可能にし、マルチターン感情サポートにおける幻覚を減らせる方法を見据えている。
我々は,ESCにおけるツール拡張エージェントを評価するための最初のインタラクティブベンチマークであるTEA-Benchを紹介し,現実的な感情シナリオ,MPPスタイルのツール環境,および情緒的サポートの質と事実を共同評価するプロセスレベルメトリクスを特徴付ける。
9つのLSMの実験では、ツールの強化は一般的に感情的なサポート品質を改善し、幻覚を減少させるが、より強力なモデルはより選択的に効果的にツールを使用するが、弱いモデルはわずかに利益がある。
さらに、ツール強化ESC対話のデータセットであるTAA-Dialogをリリースし、教師付き微調整によって配信サポートは改善されるが、一般化は不十分であることを確認した。
以上の結果から,信頼性の高い感情支援エージェントを構築する上でのツール利用の重要性が浮き彫りとなった。
関連論文リスト
- AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。
具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。
第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文 参考訳(メタデータ) (2025-06-05T04:35:49Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models [14.894922829587841]
感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。
現在の非芸術的方法論は、感情的支援能力を効果的に評価する上で困難に直面している。
本稿では,感情支援能力を評価するために,Large Language Models (LLMs) を用いた新しいモデルFEELを提案する。
論文 参考訳(メタデータ) (2024-03-23T03:32:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。