論文の概要: CAPE: Context-Aware Personality Evaluation Framework for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.20385v1
- Date: Thu, 28 Aug 2025 03:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.933147
- Title: CAPE: Context-Aware Personality Evaluation Framework for Large Language Models
- Title(参考訳): CAPE:大規模言語モデルのためのコンテキスト対応パーソナリティ評価フレームワーク
- Authors: Jivnesh Sandhan, Fei Cheng, Tushar Sandhan, Yugo Murawaki,
- Abstract要約: 大規模言語モデル(LLM)のためのコンテキスト認識型パーソナリティ評価フレームワークを提案する。
実験の結果,会話履歴は文脈内学習による応答の整合性を高めるだけでなく,人格の変化も引き起こすことがわかった。
我々のフレームワークは、人間による判断をより良く整合させるために、ロールプレイングエージェント(RPAs)に適用できる。
- 参考スコア(独自算出の注目度): 8.618075786777219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Psychometric tests, traditionally used to assess humans, are now being applied to Large Language Models (LLMs) to evaluate their behavioral traits. However, existing studies follow a context-free approach, answering each question in isolation to avoid contextual influence. We term this the Disney World test, an artificial setting that ignores real-world applications, where conversational history shapes responses. To bridge this gap, we propose the first Context-Aware Personality Evaluation (CAPE) framework for LLMs, incorporating prior conversational interactions. To thoroughly analyze the influence of context, we introduce novel metrics to quantify the consistency of LLM responses, a fundamental trait in human behavior. Our exhaustive experiments on 7 LLMs reveal that conversational history enhances response consistency via in-context learning but also induces personality shifts, with GPT-3.5-Turbo and GPT-4-Turbo exhibiting extreme deviations. While GPT models are robust to question ordering, Gemini-1.5-Flash and Llama-8B display significant sensitivity. Moreover, GPT models response stem from their intrinsic personality traits as well as prior interactions, whereas Gemini-1.5-Flash and Llama--8B heavily depend on prior interactions. Finally, applying our framework to Role Playing Agents (RPAs) shows context-dependent personality shifts improve response consistency and better align with human judgments. Our code and datasets are publicly available at: https://github.com/jivnesh/CAPE
- Abstract(参考訳): 人間を評価するために伝統的に用いられてきた心理測定テストは、現在、その行動特性を評価するためにLarge Language Models (LLM)に適用されている。
しかし、既存の研究は文脈自由なアプローチに従い、文脈の影響を避けるために各質問に個別に答える。
これは、会話履歴が応答を形作る現実世界の応用を無視した人工的な設定だ。
このギャップを埋めるために,従来の対話型対話を取り入れたLCMのための最初のコンテキスト認識パーソナリティ評価(CAPE)フレームワークを提案する。
文脈の影響を徹底的に分析するために,人間の行動の基本的な特徴であるLCM応答の一貫性を定量化するための新しい指標を導入する。
GPT-3.5-Turbo と GPT-4-Turbo では,会話履歴は文脈内学習による応答の整合性を高めるが,人格の変化も引き起こす。
GPTモデルは注文に頑丈だが、Gemini-1.5-FlashとLlama-8Bは高い感度を示した。
さらに、GPTモデル応答は、その固有の性格特性と先行相互作用に由来するが、Gemini-1.5-FlashとLlama--8Bは先行相互作用に大きく依存している。
最後に、我々のフレームワークをロールプレイングエージェント(RPAs)に適用すると、文脈に依存したパーソナリティシフトが応答の整合性を改善し、人間の判断との整合性を向上させることが示される。
私たちのコードとデータセットは、https://github.com/jivnesh/CAPEで公開されています。
関連論文リスト
- C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations [23.11314388159895]
音声対話モデル(SDM)は近年,ユーザの音声クエリに直接音声応答を生成する能力に注目が集まっている。
人間の音声相互作用は、音声対話特有の特徴のため、本質的にテキストよりも複雑である。
論文 参考訳(メタデータ) (2025-07-30T17:56:23Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Large Language Models Can Infer Personality from Free-Form User Interactions [0.0]
GPT-4は、パーソナリティを適度な精度で推測することができ、以前のアプローチよりも優れていた。
その結果,人格評価への直接的注力は,ユーザエクスペリエンスの低下を招いていないことがわかった。
予備的な分析は、人格推定の正確さは、社会デミノグラフィーのサブグループによってわずかに異なることを示唆している。
論文 参考訳(メタデータ) (2024-05-19T20:33:36Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。