論文の概要: ComPASS: Towards Personalized Agentic Social Support via Tool-Augmented Companionship
- arxiv url: http://arxiv.org/abs/2604.18356v1
- Date: Mon, 20 Apr 2026 14:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.945897
- Title: ComPASS: Towards Personalized Agentic Social Support via Tool-Augmented Companionship
- Title(参考訳): ComPASS:ツール強化コンパニオンシップによるパーソナライズされたエージェントソーシャルサポートを目指して
- Authors: Zhaopei Huang, Yanfeng Jia, Jiayi Zhao, Xinjie Zhang, Wenxuan Wang, Qin Jin,
- Abstract要約: エージェントに外部ツールを付与し、多様なアクションを実行するためのツールを開発する。
われわれはまず、さまざまなマルチメディアアプリケーションをシミュレートするユーザ中心のツールを多数設計し、様々な種類のソーシャルサポート行動をカバーする。
ComPASS-Benchに基づいて,Qwen3-8Bモデルを微調整するためのツール使用記録をさらに合成し,タスク固有のComPASS-Qwenを生成する。
- 参考スコア(独自算出の注目度): 55.402028219661986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing compassionate interactive systems requires agents to not only understand user emotions but also provide diverse, substantive support. While recent works explore empathetic dialogue generation, they remain limited in response form and content, struggling to satisfy diverse needs across users and contexts. To address this, we explore empowering agents with external tools to execute diverse actions. Grounded in the psychological concept of "social support", this paradigm delivers substantive, human-like companionship. Specifically, we first design a dozen user-centric tools simulating various multimedia applications, which can cover different types of social support behaviors in human-agent interaction scenarios. We then construct ComPASS-Bench, the first personalized social support benchmark for LLM-based agents, via multi-step automated synthesis and manual refinement. Based on ComPASS-Bench, we further synthesize tool use records to fine-tune the Qwen3-8B model, yielding a task-specific ComPASS-Qwen. Comprehensive evaluations across two settings reveal that while the evaluated LLMs can generate valid tool-calling requests with high success rates, significant gaps remain in final response quality. Moreover, tool-augmented responses achieve better overall performance than directly producing conversational empathy. Notably, our trained ComPASS-Qwen demonstrates substantial improvements over its base model, achieving comparable performance to several large-scale models. Our code and data are available at https://github.com/hzp3517/ComPASS.
- Abstract(参考訳): 思いやりのある対話システムを開発するには、エージェントはユーザーの感情を理解するだけでなく、多様な実体的なサポートを提供する必要がある。
最近の研究は共感的対話生成を探求しているが、それらは応答形式や内容に限られており、ユーザやコンテキストにまたがる多様なニーズを満たすのに苦慮している。
この問題に対処するため、エージェントに外部ツールを付与し、多様なアクションを実行する方法について検討する。
このパラダイムは「社会的支援」という心理学的概念に基づいており、現実的な人間のような仲間シップを提供する。
具体的には、まず、さまざまなマルチメディアアプリケーションをシミュレートするユーザ中心のツールを設計し、人間とエージェントのインタラクションシナリオにおける様々なタイプのソーシャルサポート行動をカバーする。
次に,多段階の自動合成と手作業による改善により,LCMをベースとしたエージェントのためのパーソナライズされたソーシャルサポートベンチマークであるComPASS-Benchを構築した。
ComPASS-Benchに基づいて,Qwen3-8Bモデルを微調整するためのツール使用記録をさらに合成し,タスク固有のComPASS-Qwenを生成する。
2つの設定の総合的な評価により、評価されたLLMは高い成功率で有効なツールコール要求を生成できるが、最終的な応答品質には大きなギャップが残っていることが明らかになった。
さらに、ツール強化された応答は、会話の共感を直接生成するよりも全体的なパフォーマンスが向上する。
特に、トレーニングしたComPASS-Qwenでは、ベースモデルよりも大幅に改善され、大規模モデルに匹敵するパフォーマンスを実現しています。
私たちのコードとデータはhttps://github.com/hzp3517/ComPASS.comで公開されています。
関連論文リスト
- Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - SI-Bench: Benchmarking Social Intelligence of Large Language Models in Human-to-Human Conversations [8.453848538355508]
大規模言語モデル(LLM)における社会的知能の側面を評価するための新しいベンチマークであるSI-Benchを紹介する。
SI-Benchは幅広い社会科学理論に基づいており、ソーシャルネットワーキングアプリケーションから収集された2,221の真のマルチターン対話を含んでいる。
実験では、複雑な社会的状況下でのプロセス推論において、SOTAモデルが人間の専門家を上回る結果となったが、それでも回答の品質は人間に劣っている。
論文 参考訳(メタデータ) (2025-10-27T10:21:46Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - Human vs. Agent in Task-Oriented Conversations [22.743152820695588]
本研究は,大規模言語モデル(LLM)を模擬したユーザとタスク指向の対話における人間ユーザとの体系的比較を行った最初の事例である。
本分析により,問題解決手法における2つのユーザタイプ間の行動的差異が明らかとなった。
論文 参考訳(メタデータ) (2025-09-22T11:30:39Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。