論文の概要: RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity
- arxiv url: http://arxiv.org/abs/2509.25897v1
- Date: Tue, 30 Sep 2025 07:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.469349
- Title: RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity
- Title(参考訳): RoleConflictBench: LLMの文脈感性評価のためのロールコンフリクトシナリオのベンチマーク
- Authors: Jisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh,
- Abstract要約: RoleConflictBenchは、複雑な社会的ジレンマにおける大規模言語モデルの文脈感度を評価するために設計された新しいベンチマークである。
私たちのベンチマークでは、3段階のパイプラインを使用して、65のロールにわたる13K以上の現実的なロールコンフリクトシナリオを生成しています。
本分析では,これらのバイアスを定量化し,家族・職業領域における役割の優位性を明らかにした。
- 参考スコア(独自算出の注目度): 30.85143823239653
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Humans often encounter role conflicts -- social dilemmas where the expectations of multiple roles clash and cannot be simultaneously fulfilled. As large language models (LLMs) become increasingly influential in human decision-making, understanding how they behave in complex social situations is essential. While previous research has evaluated LLMs' social abilities in contexts with predefined correct answers, role conflicts represent inherently ambiguous social dilemmas that require contextual sensitivity: the ability to recognize and appropriately weigh situational cues that can fundamentally alter decision priorities. To address this gap, we introduce RoleConflictBench, a novel benchmark designed to evaluate LLMs' contextual sensitivity in complex social dilemmas. Our benchmark employs a three-stage pipeline to generate over 13K realistic role conflict scenarios across 65 roles, systematically varying their associated expectations (i.e., their responsibilities and obligations) and situational urgency levels. By analyzing model choices across 10 different LLMs, we find that while LLMs show some capacity to respond to these contextual cues, this sensitivity is insufficient. Instead, their decisions are predominantly governed by a powerful, inherent bias related to social roles rather than situational information. Our analysis quantifies these biases, revealing a dominant preference for roles within the Family and Occupation domains, as well as a clear prioritization of male roles and Abrahamic religions across most evaluatee models.
- Abstract(参考訳): 複数の役割の期待が衝突し、同時に達成できない社会的ジレンマ。
大規模言語モデル(LLM)が人間の意思決定に影響を及ぼすにつれ、複雑な社会的状況においてどのように振る舞うかを理解することが不可欠である。
これまでの研究では、LLMの社会的能力は、事前に定義された正しい答えを持つ文脈で評価されてきたが、ロールコンフリクトは本質的に曖昧な社会的ジレンマであり、文脈的感受性を必要とする。
このギャップに対処するために、複雑な社会的ジレンマにおけるLLMの文脈感度を評価するために設計された新しいベンチマークであるRoleConflictBenchを紹介する。
私たちのベンチマークでは、3段階のパイプラインを使用して、65のロールにわたる13K以上の現実的なロールコンフリクトシナリオを生成し、関連する期待(すなわち責任と義務)と状況的緊急度を体系的に変更しています。
10種類のLCMのモデル選択を解析した結果、LCMはこれらの文脈的手がかりに応答する能力を示す一方で、この感度は不十分であることが判明した。
その代わりに、彼らの決定は、主に状況情報ではなく、社会的役割に関連する強力で固有のバイアスによって支配される。
我々の分析はこれらのバイアスを定量化し、家族と職業領域における役割を優先し、また、最も評価されたモデルにおける男性の役割とエイブラハム宗教の明確な優先順位付けを明らかにした。
関連論文リスト
- How large language models judge and influence human cooperation [82.07571393247476]
我々は、最先端の言語モデルが協調行動をどのように判断するかを評価する。
我々は、善良な相手との協力を評価する際、顕著な合意を守ります。
モデル間の差異が協調の頻度に大きく影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2025-06-30T09:14:42Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。
我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。
以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文 参考訳(メタデータ) (2025-05-28T01:31:54Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context [5.361970694197912]
本稿では,大規模言語モデル(LLM)の意思決定行動を評価するための行動経済学に基づく枠組みを提案する。
本稿では,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMにおけるリスク嗜好,確率重み付け,損失回避の程度を推定する。
以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。
論文 参考訳(メタデータ) (2024-06-10T02:14:19Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - On the Decision-Making Abilities in Role-Playing using Large Language
Models [6.550638804145713]
大型言語モデル(LLM)はロールプレイングタスクにますます活用されている。
本稿では,LLMのポストロールプレイングにおける意思決定能力の評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T02:22:23Z) - Do LLM Agents Exhibit Social Behavior? [5.094340963261968]
State-Understanding-Value-Action (SUVA) は、社会的文脈における応答を体系的に分析するフレームワークである。
最終決定とそれにつながる反応生成プロセスの両方を通じて社会的行動を評価する。
発話に基づく推論がLLMの最終動作を確実に予測できることを実証する。
論文 参考訳(メタデータ) (2023-12-23T08:46:53Z) - Personality testing of Large Language Models: Limited temporal stability, but highlighted prosociality [0.0]
大きな言語モデル(LLM)は、人間のような特徴と、ユーザに提供する親密さによって人気を博している。
本研究は,人格楽器に対する時間的安定度と時間的合意度を2点に評価することを目的とした。
短時間でLSMs反応において, レーザー間一致のレベルが異なることが判明した。
論文 参考訳(メタデータ) (2023-06-07T10:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。