論文の概要: Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02847v1
- Date: Thu, 01 May 2025 19:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.02854
- Title: Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models
- Title(参考訳): 裁判官としての優越的エージェント:大規模言語モデルにおける高次社会的認知の評価
- Authors: Bang Zhang, Ruotian Ma, Qingxuan Jiang, Peisong Wang, Jiaqi Chen, Zheng Xie, Xingyu Chen, Yue Wang, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li,
- Abstract要約: SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
- 参考スコア(独自算出の注目度): 75.85319609088354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing how well a large language model (LLM) understands human, rather than merely text, remains an open challenge. To bridge the gap, we introduce Sentient Agent as a Judge (SAGE), an automated evaluation framework that measures an LLM's higher-order social cognition. SAGE instantiates a Sentient Agent that simulates human-like emotional changes and inner thoughts during interaction, providing a more realistic evaluation of the tested model in multi-turn conversations. At every turn, the agent reasons about (i) how its emotion changes, (ii) how it feels, and (iii) how it should reply, yielding a numerical emotion trajectory and interpretable inner thoughts. Experiments on 100 supportive-dialogue scenarios show that the final Sentient emotion score correlates strongly with Barrett-Lennard Relationship Inventory (BLRI) ratings and utterance-level empathy metrics, validating psychological fidelity. We also build a public Sentient Leaderboard covering 18 commercial and open-source models that uncovers substantial gaps (up to 4x) between frontier systems (GPT-4o-Latest, Gemini2.5-Pro) and earlier baselines, gaps not reflected in conventional leaderboards (e.g., Arena). SAGE thus provides a principled, scalable and interpretable tool for tracking progress toward genuinely empathetic and socially adept language agents.
- Abstract(参考訳): 大規模言語モデル(LLM)が単にテキストではなく、いかに人間を理解するかを評価することは、依然としてオープンな課題である。
このギャップを埋めるために,LLMの高次社会的認知度を測定する自動評価フレームワークであるSAGE(Sentient Agent as a Judge)を導入する。
SAGEは、人間のような感情の変化と対話中の内的思考をシミュレートし、マルチターン会話においてテストされたモデルのより現実的な評価を提供するセンタエントエージェントをインスタンス化する。
毎回、エージェントが理由を言う
i) その感情がどう変わるか
(二)感じ方、及び
(三)答えの仕方、数値的な感情の軌跡、解釈可能な内的思考を産み出すこと。
100の支持的対話シナリオの実験では、最後のSentient感情スコアは、Barrett-Lennard Relation Inventory (BLRI) 評価と発話レベルの共感尺度と強く相関し、心理的忠実さを検証している。
また、フロンティアシステム(GPT-4o-Update, Gemini2.5-Pro)とそれ以前のベースライン間の大きなギャップ(例えば、Arena)を明らかにする18の商用およびオープンソースモデルをカバーする、パブリックなSentient Leaderboardを構築しています。
これにより、SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
関連論文リスト
- SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Can Generative Agents Predict Emotion? [0.0]
大規模言語モデル (LLM) は、多くの人間のような能力を示してきたが、LLMの共感的な理解と感情状態は、まだ人間のものと一致していない。
生成的LLMエージェントの感情状態が,新たな出来事を知覚し,新たな体験を過去の記憶と比較する新しいアーキテクチャを導入することにより,どのように進化していくかを検討する。
論文 参考訳(メタデータ) (2024-02-06T18:39:43Z) - Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory [8.439724621886779]
LLM(Large Language Models)の開発は、人間中心の人工知能(AGI)に希望の光を与えている。
共感は人間にとって重要な感情的属性として機能し、人間中心のAGIにおいて不定の役割を果たす。
本稿では,社会学における自己表現理論にインスパイアされた革新的なエンコーダモジュールを設計する。
論文 参考訳(メタデータ) (2023-12-14T07:38:12Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - CASE: Aligning Coarse-to-Fine Cognition and Affection for Empathetic
Response Generation [59.8935454665427]
共感的対話モデルは、通常、感情的な側面のみを考慮するか、孤立して認知と愛情を扱う。
共感的対話生成のためのCASEモデルを提案する。
論文 参考訳(メタデータ) (2022-08-18T14:28:38Z) - Constructing Emotion Consensus and Utilizing Unpaired Data for
Empathetic Dialogue Generation [22.2430593119389]
本稿では、感情のコンセンサスを同時に構築し、外部の未ペアデータを利用するための二重生成モデルDual-Empを提案する。
本手法は,コヒーレントかつ共感的応答の獲得において,競争ベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-09-16T07:57:01Z) - Towards Socially Intelligent Agents with Mental State Transition and
Human Utility [97.01430011496576]
対話エージェントに精神状態と実用性モデルを取り入れることを提案する。
ハイブリッド精神状態は、対話とイベント観察の両方から情報を抽出する。
ユーティリティモデルは、クラウドソースのソーシャルコモンセンスデータセットから人間の好みを学習するランキングモデルである。
論文 参考訳(メタデータ) (2021-03-12T00:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。