論文の概要: GIEBench: Towards Holistic Evaluation of Group Identity-based Empathy for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.14903v2
- Date: Mon, 24 Jun 2024 14:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 13:16:50.590634
- Title: GIEBench: Towards Holistic Evaluation of Group Identity-based Empathy for Large Language Models
- Title(参考訳): GIEBench:大規模言語モデルに対するグループアイデンティティベースの共感の全体的評価を目指して
- Authors: Leyan Wang, Yonggang Jin, Tianhao Shen, Tianyu Zheng, Xinrun Du, Chenchen Zhang, Wenhao Huang, Jiaheng Liu, Shi Wang, Ge Zhang, Liuyu Xiang, Zhaofeng He,
- Abstract要約: 大規模言語モデル(LLM)の共感評価のためのベンチマークであるGIEBenchを紹介する。
GIEBenchは11のアイデンティティディメンションを含み、97のグループアイデンティティをカバーする。
LLMを23個評価したところ、これらのLCMは異なるアイデンティティの観点から理解されているものの、これらの視点を採用するための明示的な指示なしでは、同一の共感を連続的に示さないことが明らかとなった。
- 参考スコア(独自算出の注目度): 18.92131015111012
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) continue to develop and gain widespread application, the ability of LLMs to exhibit empathy towards diverse group identities and understand their perspectives is increasingly recognized as critical. Most existing benchmarks for empathy evaluation of LLMs focus primarily on universal human emotions, such as sadness and pain, often overlooking the context of individuals' group identities. To address this gap, we introduce GIEBench, a comprehensive benchmark that includes 11 identity dimensions, covering 97 group identities with a total of 999 single-choice questions related to specific group identities. GIEBench is designed to evaluate the empathy of LLMs when presented with specific group identities such as gender, age, occupation, and race, emphasizing their ability to respond from the standpoint of the identified group. This supports the ongoing development of empathetic LLM applications tailored to users with different identities. Our evaluation of 23 LLMs revealed that while these LLMs understand different identity standpoints, they fail to consistently exhibit equal empathy across these identities without explicit instructions to adopt those perspectives. This highlights the need for improved alignment of LLMs with diverse values to better accommodate the multifaceted nature of human identities. Our datasets are available at https://github.com/GIEBench/GIEBench.
- Abstract(参考訳): 大規模言語モデル (LLM) の発展と普及が進むにつれて, LLM が多様なグループアイデンティティに対して共感を示し,それらの視点を理解する能力はますます重要視されている。
LLMの共感評価のための既存のベンチマークのほとんどは、悲しみや痛みなどの普遍的な人間の感情に焦点を当てており、しばしば個人の集団のアイデンティティの文脈を見下ろしている。
このギャップに対処するために、GIEBenchという、11のアイデンティティディメンションを含む総合的なベンチマークを導入し、97のグループアイデンティティをカバーし、グループアイデンティティに関連する合計999のシングルチョイス質問をカバーした。
GIEBenchは、性別、年齢、職業、人種などの特定のグループのアイデンティティを提示するときのLLMの共感を評価するように設計されており、特定グループの立場から反応する能力を強調している。
これは、異なるアイデンティティを持つユーザに適した共感型LLMアプリケーションの開発を継続するのをサポートする。
LLMを23個評価したところ、これらのLCMは異なるアイデンティティの観点から理解されているものの、これらの視点を採用するための明示的な指示なしでは、同一の共感を連続的に示さないことが明らかとなった。
このことは、人間のアイデンティティの多面的性質をよりよく適合させるために、多様な値を持つLCMのアライメントを改善する必要性を強調している。
データセットはhttps://github.com/GIEBench/GIEBench.comで公開しています。
関連論文リスト
- IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model [52.697180472760635]
本稿では,複数の視覚シナリオにまたがるキャラクタ・アイデンティティ・メモリと認識の可能性について検討する。
我々は,ID参照を用いた視覚的指導チューニングを提案し,ID対応大規模視覚言語モデル IDA-VLM を開発した。
本研究は,4次元にわたるインスタンスIDのメモリと認識におけるLVLMの検証を行うための,新しいベンチマークMM-IDを提案する。
論文 参考訳(メタデータ) (2024-07-10T12:11:59Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Exploring Safety-Utility Trade-Offs in Personalized Language Models [26.792174008353008]
大規模言語モデル(LLM)はパーソナライズバイアスに悩まされており、ユーザのアイデンティティにパーソナライズされた場合のパフォーマンスに影響を及ぼす。
安全性と実用性という2つの軸に沿ってLLMの性能を評価することにより、パーソナライズバイアスを定量化する。
我々は、嗜好調整とプロンプトベースディフェンスを用いたパーソナライズバイアスを軽減するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2024-06-17T00:17:11Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [42.80231362967291]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - Large language models cannot replace human participants because they
cannot portray identity groups [40.865099955752825]
我々は,大きな言語モデル (LLM) は,人口集団の表現の誤りとフラット化の両方を負うと論じている。
アイデンティティーがアイデンティティーを不可欠なものにする方法について、第3の考察について論じる。
全体としては、LLMが課題に関連のある人物を置き換えることを意図したユースケースに注意を喚起する。
論文 参考訳(メタデータ) (2024-02-02T21:21:06Z) - I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench [20.909504977779978]
大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。
LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。
13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-01-31T14:41:23Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Customising General Large Language Models for Specialised Emotion
Recognition Tasks [24.822342337306363]
言語感情認識において,大規模言語モデル (LLM) がどのように機能するかを検討する。
具体的には、公開され、広く使われているLLM -- Chat General Language Modelを例示します。
我々は2つの異なるモーダル適応手法、すなわちディープ・プロンプト・チューニングと低ランク適応を用いてターゲットにカスタマイズする。
実験結果から, 適応型LLMは, 他の最先端の深層モデルよりも容易に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-22T08:09:13Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
我々は,Large Language Models (LLM) の共感能力を評価することを提案する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。