Fugu-MT 論文翻訳(概要): What Persona Are We Missing? Identifying Unknown Relevant Personas for Faithful User Simulation

論文の概要: What Persona Are We Missing? Identifying Unknown Relevant Personas for Faithful User Simulation

arxiv url: http://arxiv.org/abs/2602.15832v1
Date: Sat, 03 Jan 2026 16:22:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.628693
Title: What Persona Are We Missing? Identifying Unknown Relevant Personas for Faithful User Simulation
Title（参考訳）: 行方不明者は何者なのか? 偽ユーザーシミュレーションのための未知の関連人物を同定する
Authors: Weiwen Su, Yuhan Zhou, Zihan Wang, Naoki Yoshinaga, Masashi Toyoda,
Abstract要約: 既存のユーザシミュレーションでは、モデルが対話でユーザライクな応答を生成するが、十分なユーザペルソナが提供されるという検証が欠如していることが多い。本研究は,特定のシミュレーションコンテキストに対して,シミュレーション対象の関連性はあるが未知の人物を特定するタスクについて検討する。 PICQは,未知のペルソナを付加した,文脈認識型選択質問の新しいデータセットである。
参考スコア（独自算出の注目度）: 16.797868883640255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing user simulations, where models generate user-like responses in dialogue, often lack verification that sufficient user personas are provided, questioning the validity of the simulations. To address this core concern, this work explores the task of identifying relevant but unknown personas of the simulation target for a given simulation context. We introduce PICQ, a novel dataset of context-aware choice questions, annotated with unknown personas (e.g., ''Is the user price-sensitive?'') that may influence user choices, and propose a multi-faceted evaluation scheme assessing fidelity, influence, and inaccessibility. Our benchmark of leading LLMs reveals a complex ''Fidelity vs. Insight'' dilemma governed by model scale: while influence generally scales with model size, fidelity to human patterns follows an inverted U-shaped curve. We trace this phenomenon to cognitive differences, particularly the human tendency for ''cognitive economy.'' Our work provides the first comprehensive benchmark for this crucial task, offering a new lens for understanding the divergent cognitive models of humans and advanced LLMs.
Abstract（参考訳）: 既存のユーザシミュレーションでは、モデルが対話でユーザライクな応答を生成するが、十分なユーザペルソナが提供されるという検証を欠くことが多く、シミュレーションの有効性を疑問視する。この中核的な懸念に対処するため、この研究は、シミュレーション対象の関連性はあるが未知の人物を特定するタスクを、与えられたシミュレーションコンテキストに対して検討する。 PICQは,ユーザ選択に影響を及ぼす可能性のある未知のペルソナ(例:'I's the user price-sensitive?')を付加した,コンテキスト認識型選択質問の新しいデータセットであり,忠実度,影響度,アクセシビリティを評価する多面的評価手法を提案する。 LLMをリードする我々のベンチマークでは、モデルスケールが支配する複雑な'Fidelity vs. Insight'ジレンマが明らかになっている。我々は、この現象を認知的差異、特に「認知経済」に対する人間の傾向に追従する。我々の研究は、この重要な課題に対する最初の包括的なベンチマークを提供し、人間と先進LLMの多様な認知モデルを理解するための新しいレンズを提供する。

関連論文リスト

HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文参考訳（メタデータ） (2026-01-22T09:27:27Z)
See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文参考訳（メタデータ） (2025-10-22T05:07:14Z)
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文参考訳（メタデータ） (2025-10-20T13:14:38Z)
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。 DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文参考訳（メタデータ） (2025-10-17T10:14:26Z)
Human vs. Agent in Task-Oriented Conversations [22.743152820695588]
本研究は,大規模言語モデル(LLM)を模擬したユーザとタスク指向の対話における人間ユーザとの体系的比較を行った最初の事例である。本分析により,問題解決手法における2つのユーザタイプ間の行動的差異が明らかとなった。
論文参考訳（メタデータ） (2025-09-22T11:30:39Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models [20.077019480409657]
ユーザーが大きな言語モデル(LLM)を人為的に形作る傾向は、AI開発者、研究者、政策立案者への関心が高まっている。本稿では,現実的かつ多様な環境下での人為的 LLM の挙動を実証的に評価する手法を提案する。まず,14の人為的行動のマルチターン評価を開発する。次に,ユーザインタラクションのシミュレーションを用いて,スケーラブルで自動化されたアプローチを提案する。第3に,対話型大規模人体調査(N=1101)を実施し,実際のユーザの人文的知覚を予測するモデル行動を検証する。
論文参考訳（メタデータ） (2025-02-10T22:09:57Z)
User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文参考訳（メタデータ） (2023-06-05T02:58:35Z)
User Ex Machina : Simulation as a Design Probe in Human-in-the-Loop Text Analytics [29.552736183006672]
話題モデルを用いた人間中心インタラクションのシミュレーションに基づく解析を行う。ユーザインタラクションには大きさが違うが、結果のモデリングの品質に悪影響を及ぼすことがよくあります。
論文参考訳（メタデータ） (2021-01-06T19:44:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。