論文の概要: InterviewSim: A Scalable Framework for Interview-Grounded Personality Simulation
- arxiv url: http://arxiv.org/abs/2602.20294v1
- Date: Mon, 23 Feb 2026 19:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.498744
- Title: InterviewSim: A Scalable Framework for Interview-Grounded Personality Simulation
- Title(参考訳): InterviewSim: インタビューを取り巻くパーソナリティシミュレーションのためのスケーラブルなフレームワーク
- Authors: Yu Li, Pranav Narayanan Venkit, Yada Pruksachatkun, Chien-Sheng Wu,
- Abstract要約: 大きな言語モデルで実際の個人性をシミュレートするには、真正の個人データにおいて基礎となる生成が必要である。
大規模にパーソナリティシミュレーションを行うためのインタビューグラウンド評価フレームワークを提案する。
我々は,1000人以上の公的な個人を対象とした23,000件の面接書から671,000件以上の質問回答対を抽出した。
- 参考スコア(独自算出の注目度): 32.09483697866529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulating real personalities with large language models requires grounding generation in authentic personal data. Existing evaluation approaches rely on demographic surveys, personality questionnaires, or short AI-led interviews as proxies, but lack direct assessment against what individuals actually said. We address this gap with an interview-grounded evaluation framework for personality simulation at a large scale. We extract over 671,000 question-answer pairs from 23,000 verified interview transcripts across 1,000 public personalities, each with an average of 11.5 hours of interview content. We propose a multi-dimensional evaluation framework with four complementary metrics measuring content similarity, factual consistency, personality alignment, and factual knowledge retention. Through systematic comparison, we demonstrate that methods grounded in real interview data substantially outperform those relying solely on biographical profiles or the model's parametric knowledge. We further reveal a trade-off in how interview data is best utilized: retrieval-augmented methods excel at capturing personality style and response quality, while chronological-based methods better preserve factual consistency and knowledge retention. Our evaluation framework enables principled method selection based on application requirements, and our empirical findings provide actionable insights for advancing personality simulation research.
- Abstract(参考訳): 大きな言語モデルで実際の個人性をシミュレートするには、真正の個人データにおいて基礎となる生成が必要である。
既存の評価アプローチは、人口調査、パーソナリティアンケート、あるいは短いAIによるインタビューをプロキシとして頼っているが、個人が実際に言ったことに対する直接的な評価は受けていない。
このギャップを,大規模にパーソナリティシミュレーションを行うためのインタビューグラウンド評価フレームワークを用いて解決する。
我々は、1000人の公的な個人を対象とした23,000件の確認済み面接書から671,000件以上の質問応答対を抽出し、それぞれ平均11.5時間の面接内容を得た。
コンテントの類似性,事実整合性,個性整合性,事実的知識保持性の4つの相補的指標を持つ多次元評価フレームワークを提案する。
組織的な比較を通じて,実インタビューデータに基づく手法は,生涯プロファイルやモデルのパラメトリック知識にのみ依存する手法よりもかなり優れていることを示す。
さらに,インタビューデータの活用方法のトレードオフとして,人格的スタイルや応答品質の把握に優れた検索拡張手法と,事実整合性や知識保持性をよりよく保存する時系列ベースの手法があげられる。
評価フレームワークは,応用要件に基づく原則的手法選択を可能にし,実証実験により人格シミュレーション研究の進展に有効な知見を提供する。
関連論文リスト
- Modular AI-Powered Interviewer with Dynamic Question Generation and Expertise Profiling [0.7349727826230863]
本研究では、文脈的に適切で専門性に整合した質問を動的に生成するAIを利用したインタビュアーを提案する。
インタビュアーは、データプライバシを保持しながらコヒーレントな対話を生成する、ローカルにホストされた大規模言語モデル(LLM)上に構築されている。
提案されたインタビュアーは、スケーラブルでプライバシを重視したソリューションで、AIによる定性的データ収集を前進させる。
論文 参考訳(メタデータ) (2025-11-21T18:25:26Z) - CritiQ: Mining Data Quality Criteria from Human Preferences [91.44025907584931]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - Personality Structured Interview for Large Language Model Simulation in Personality Research [8.208325358490807]
人格研究における人間の反応をシミュレートするためのツールとして,理論インフォームド・パーソナリティ構造化インタビューの可能性を探る。
対象サンプルから,32質問に対する個人の回答を含む357件の構造化面接書を作成した。
3つの実験の結果、LLMシミュレーションされた人格データにおいて、よく設計されたインタビューが人間のような不均一性を改善できることを示した。
論文 参考訳(メタデータ) (2025-02-17T18:31:57Z) - AI Conversational Interviewing: Transforming Surveys with LLMs as Adaptive Interviewers [40.80290002598963]
本研究では,人間のインタビュアーを大規模言語モデル (LLM) に置き換えて,スケーラブルな対話型インタビュアーを実現する可能性について検討する。
大学生を対象に,AIやヒューマンインタビュアーによる会話面接にランダムに割り当てられた,小規模かつ詳細な調査を行った。
様々な量的・質的な尺度は, インタビュアーのガイドライン, 応答品質, 参加者参加率, 総合的な面接効果に順応した。
論文 参考訳(メタデータ) (2024-09-16T16:03:08Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z) - Leveraging Multimodal Behavioral Analytics for Automated Job Interview
Performance Assessment and Feedback [0.5872014229110213]
行動的手がかりは人間のコミュニケーションや認知に重要な役割を果たす。
本稿では,インタビューシナリオにおける候補の分析を行うマルチモーダル分析フレームワークを提案する。
我々はこれらのマルチモーダルデータソースを用いて複合表現を構築し、機械学習分類器を訓練してクラスラベルを予測する。
論文 参考訳(メタデータ) (2020-06-14T14:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。