論文の概要: Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
- arxiv url: http://arxiv.org/abs/2510.19028v2
- Date: Sat, 25 Oct 2025 16:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.601036
- Title: Are they lovers or friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues
- Title(参考訳): 恋人か友人か? : 英語と韓国語対話におけるLLMの社会的推論の評価
- Authors: Eunsu Kim, Junyeong Park, Juhyun Oh, Kiwoong Park, Seyoung Song, A. Seza Doğruöz, Najoung Kim, Alice Oh,
- Abstract要約: 映画脚本をベースとした1k対話データセットであるSCRIPTSを紹介した。
この課題は、各対話における話者間の対人関係を推測するモデルの社会的推論能力を評価することである。
思考モデルとチェーン・オブ・シークレットが一般的な推論に有効であり、社会的推論に最小限の利益をもたらし、時には社会的バイアスを増幅することを発見した。
- 参考スコア(独自算出の注目度): 32.86600072956612
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) are increasingly used in human-AI interactions, their social reasoning capabilities in interpersonal contexts are critical. We introduce SCRIPTS, a 1k-dialogue dataset in English and Korean, sourced from movie scripts. The task involves evaluating models' social reasoning capability to infer the interpersonal relationships (e.g., friends, sisters, lovers) between speakers in each dialogue. Each dialogue is annotated with probabilistic relational labels (Highly Likely, Less Likely, Unlikely) by native (or equivalent) Korean and English speakers from Korea and the U.S. Evaluating nine models on our task, current proprietary LLMs achieve around 75-80% on the English dataset, whereas their performance on Korean drops to 58-69%. More strikingly, models select Unlikely relationships in 10-25% of their responses. Furthermore, we find that thinking models and chain-of-thought prompting, effective for general reasoning, provide minimal benefits for social reasoning and occasionally amplify social biases. Our findings reveal significant limitations in current LLMs' social reasoning capabilities, highlighting the need for efforts to develop socially-aware language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間とAIの相互作用にますます使われるようになっているため、対人関係における社会的推論能力は重要である。
映画脚本をベースとした1k対話データセットであるSCRIPTSを紹介した。
この課題は、各対話における話者間の対人関係(例えば、友人、姉妹、恋人など)を推測するモデルの社会的推論能力を評価することである。
各対話には,韓国語話者と韓国語話者による確率的リレーショナルラベル (Highly Likely, Less Likely, Unlikely) がアノテートされている。
さらに印象的なのは、モデルが回答の10~25%で異なる関係を選択することだ。
さらに、思考モデルやチェーン・オブ・思想が一般的な推論に有効であり、社会的推論に最小限の利益をもたらし、時には社会的バイアスを増幅することを発見した。
以上の結果から,現在のLLMの社会的推論能力には,社会的に認知された言語モデルを開発することの必要性が指摘された。
関連論文リスト
- Probing Social Identity Bias in Chinese LLMs with Gendered Pronouns and Social Groups [6.097454027594837]
大規模言語モデル(LLM)は、ユーザ向けアプリケーションにますますデプロイされ、社会的バイアスを反映し増幅する可能性への懸念が高まっている。
中国語LLMにおける社会的アイデンティティ・フレーミングについて,マンダリン固有のプロンプトを用いて検討し,イングループ(We)とアウトグループ(They)のフレーミングに対する反応を評価し,その設定を中国語の文脈で240グループまで拡張した。
モデル全体では, 人工的なプロンプトに限らず, 自然主義的な対話にも現れる, 系統的な内集団陽性傾向と外集団陰性傾向を観察する。
論文 参考訳(メタデータ) (2025-10-08T13:00:12Z) - SocialNLI: A Dialogue-Centric Social Inference Dataset [49.60157928163403]
第1回社会対話推論データセットSocialNLIを紹介する。
SocialNLIは、複雑な社会的ニュアンスの中心となるために手書きの対話文からなる。
多段階の反実的推論による推論モデルの評価を行う。
論文 参考訳(メタデータ) (2025-10-06T23:42:01Z) - Bayesian Social Deduction with Graph-Informed Language Models [3.7540464038118633]
社会的推論は、大きな言語モデルにとって難しい課題である。
本稿では,信念推論を構造化確率モデルに外部化するハイブリッド推論フレームワークを提案する。
提案手法はエージェント・エージェント・プレイにおけるより大きなモデルとの競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-21T18:45:28Z) - LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions [4.819825467587802]
本稿では,言語エージェントの総合評価を行うための新しいベンチマークLIFELONG-SOTOPIAを提案する。
私たちがテストするすべての言語モデルの目標達成と信頼性が、インタラクション全体を通じて低下していることに気付きました。
以上の結果から,生涯にわたる社会的相互作用による言語エージェントの社会的知性評価にはLIFELONG-SOTOPIAが有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-14T23:57:54Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - Generative Language Models Exhibit Social Identity Biases [17.307292780517653]
56大言語モデルにおいて,内集団の連帯性と外集団の敵意,基本的社会的アイデンティティバイアスが存在するか否かを検討する。
ほぼすべての基礎言語モデルといくつかの命令微調整モデルは、文の完全化を促すと、明らかな非群陽性および非群陰性な関連を示す。
現代の言語モデルは,人間と同等の社会的アイデンティティバイアスを示すことが示唆された。
論文 参考訳(メタデータ) (2023-10-24T13:17:40Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。