論文の概要: Evaluating Developmental Cognition Capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2605.08549v1
- Date: Fri, 08 May 2026 23:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.727039
- Title: Evaluating Developmental Cognition Capabilities of LLMs
- Title(参考訳): LLMの発達認知能力の評価
- Authors: Xiao Xiao, Hayoun Noh, Mar Gonzalez-Franco,
- Abstract要約: 自己管理テキストにおける発達信号の抽出を目的とした発達文補完テスト(DSCT)。
トップフロンティアモデルはシミュレーションされたペルソナの高精度なラベルを復元する。
実際のヒトDSCT反応では、人間とLLMの合意は公正であり、正確な合意よりもその近傍の方がはるかに強い。
- 参考スコア(独自算出の注目度): 5.6424538465133445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational AI is increasingly personalized around users' preferences, histories, goals, and knowledge, but much less around how users interpret and take up model outputs to construct and understand their reality. We draw on Robert Kegan's constructive-developmental theory as a complementary lens on this dimension. Existing methods for assessing developmental stage in the Keganian tradition rely either on expert interviews that do not scale or on sentence-completion instruments that are proprietary, lengthy, or invasive. To make this perspective tractable for LLM evaluation, we introduce the Developmental Sentence Completion Test (DSCT), a 20-item instrument designed to elicit developmental signal in self-administered text. Throughout, we treat the resulting labels as characterizations of stage-like structure in elicited responses, not as validated person-level developmental stage. We then ask how much of that signal can be recovered by LLMs across three elicited response regimes: simulated personas, real human respondents, and default model-generated answers. On simulated personas, top frontier models recover simulator-intended labels with high accuracy. On real human DSCT responses, human-LLM agreement is fair, with much stronger within-neighborhood than exact agreement. Finally, when LLMs answer DSCT prompts without persona-conditioning, their responses exhibit stable stage-like differences across model families, with larger and newer models tending to generate higher-rated text. These results suggest that stage-conditioned signal is cleaner in synthetic responses than in human-written DSCT text, and that the core constraint for stage-aware conversational AI is not classifier accuracy alone, but the availability of developmental signal from elicited text.
- Abstract(参考訳): 会話型AIは、ユーザの好み、歴史、目標、知識についてパーソナライズされることが増えているが、ユーザがどのように解釈し、モデルアウトプットを取り上げて、現実を構築し、理解するかについては、はるかに少ない。
我々は、この次元の補レンズとして、ロバート・ケーガンの構成的・発展的理論を描く。
ケガニアの伝統における発達段階を評価する既存の手法は、スケールしない専門家のインタビューや、プロプライエタリ、長大、または侵略的な文章補完機器に頼っている。
この視点をLCM評価に活用するために,自己管理テキストにおける発達信号の抽出を目的とした20項目の発達文補完テスト(DSCT)を導入する。
本研究は, 評価対象の発達段階ではなく, 誘発応答における段階的構造の特徴として, 得られたラベルを扱い, 評価対象の発達段階として扱う。
次に、シミュレートされたペルソナ、実際の人間の回答、デフォルトのモデル生成回答の3つにまたがるLSMによって、そのシグナルのどれだけが回復できるかを尋ねます。
シミュレーションされたペルソナでは、トップフロンティアモデルは、シミュレータが意図したラベルを高精度に復元する。
実際のヒトDSCT反応では、人間とLLMの合意は公正であり、正確な合意よりもその近傍の方がはるかに強い。
最後に、LCMがDSCTに応答すると、その応答はモデルファミリ間で安定したステージライクな相違を示し、より大規模で新しいモデルではより高いテキストを生成する傾向にある。
これらの結果から,段階的条件付き信号は人間の書き起こしたDSCTテキストよりもクリーンであり,段階的に認識される会話型AIのコア制約は,分類器の精度だけでなく,提案されたテキストからの発達的信号が利用可能であることが示唆された。
関連論文リスト
- ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文 参考訳(メタデータ) (2026-03-30T15:06:41Z) - Interview-Informed Generative Agents for Product Discovery: A Validation Study [4.775774786716911]
本研究では,インタビューインフォームド生成エージェントが概念テストシナリオでユーザ応答をシミュレートできるかどうかを検討する。
その結果,エージェントは分布校正されているが,識別精度は低いことがわかった。
論文 参考訳(メタデータ) (2026-03-10T22:54:45Z) - HumanLM: Simulating Users with State Alignment Beats Response Imitation [84.89761487596844]
本稿では,実際のユーザを正確に反映したユーザシミュレータを構築する新しいトレーニングフレームワークHumanLMを提案する。
HumanLMは、強化学習を通じて、地道的な応答に一致した自然言語の潜伏状態を生成する。
本研究では,公開データに基づく実ユーザシミュレーションのための総合的なベンチマークであるHumanualを開発する。
論文 参考訳(メタデータ) (2026-02-07T20:26:28Z) - Ask, Answer, and Detect: Role-Playing LLMs for Personality Detection with Question-Conditioned Mixture-of-Experts [4.618735978506653]
ROMEは、心理的知識を人格検出に明示的に注入する新しいフレームワークである。
ROMEは、実世界の2つのデータセットの実験において、最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-12-09T17:07:54Z) - Computational Turing Test Reveals Systematic Differences Between Human and AI Language [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするために社会科学でますます使われている。
既存の検証努力は人的判断に基づく評価に大きく依存している。
本稿では,LLMが人間の言語にどの程度近いかを評価するために,計算チューリングテストを提案する。
論文 参考訳(メタデータ) (2025-11-06T08:56:37Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。