論文の概要: Who's Asking? Simulating Role-Based Questions for Conversational AI Evaluation
- arxiv url: http://arxiv.org/abs/2510.16829v1
- Date: Sun, 19 Oct 2025 13:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.169688
- Title: Who's Asking? Simulating Role-Based Questions for Conversational AI Evaluation
- Title(参考訳): 誰が質問しているのか? 会話型AI評価のための役割ベースの質問をシミュレートする
- Authors: Navreet Kaur, Hoda Ayad, Hayoung Jung, Shravika Mittal, Munmun De Choudhury, Tanushree Mitra,
- Abstract要約: CoRUSはロールベースの質問をシミュレートするためのフレームワークである。
それぞれの役割の目標、行動、経験を組み込んだ15,321の質問をシミュレートするために使用します。
評価の結果,これらの質問は信頼性が高く,実世界のデータに匹敵するものであることがわかった。
- 参考スコア(独自算出の注目度): 17.80114478108356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model users often embed personal and social context in their questions. The asker's role -- implicit in how the question is framed -- creates specific needs for an appropriate response. However, most evaluations, while capturing the model's capability to respond, often ignore who is asking. This gap is especially critical in stigmatized domains such as opioid use disorder (OUD), where accounting for users' contexts is essential to provide accessible, stigma-free responses. We propose CoRUS (COmmunity-driven Roles for User-centric Question Simulation), a framework for simulating role-based questions. Drawing on role theory and posts from an online OUD recovery community (r/OpiatesRecovery), we first build a taxonomy of asker roles -- patients, caregivers, practitioners. Next, we use it to simulate 15,321 questions that embed each role's goals, behaviors, and experiences. Our evaluations show that these questions are both highly believable and comparable to real-world data. When used to evaluate five LLMs, for the same question but differing roles, we find systematic differences: vulnerable roles, such as patients and caregivers, elicit more supportive responses (+17%) and reduced knowledge content (-19%) in comparison to practitioners. Our work demonstrates how implicitly signaling a user's role shapes model responses, and provides a methodology for role-informed evaluation of conversational AI.
- Abstract(参考訳): 言語モデル利用者はしばしば質問に個人的・社会的文脈を埋め込む。
問題がどのようにフレーム化されているかの暗黙的なアスカーの役割は、適切な応答に対する特定のニーズを生み出します。
しかしながら、ほとんどの評価は、モデルが応答する能力を捉えながら、尋ねている人を無視する。
このギャップは、特にオピオイド使用障害(OUD)のようなスティグマのない応答を提供するためにユーザーのコンテキストを考慮に入れることが不可欠である、スティグマ化されたドメインにおいて重要である。
我々は,役割に基づく質問をシミュレートするフレームワークであるCoRUS(Commmunity-driven Roles for User-centric Question Simulation)を提案する。
オンラインOUDリカバリコミュニティ(r/OpiatesRecovery)のロール理論とポストに基づいて、まず、患者、介護者、実践者のアスカーロールの分類を構築します。
次に、各ロールの目標、行動、経験を組み込んだ15,321の質問をシミュレートします。
評価の結果,これらの質問は信頼性が高く,実世界のデータに匹敵するものであることがわかった。
患者や介護者などの脆弱な役割, 支援的応答(+17%), 知識内容(19%)の減少など, 5つのLCMの評価に用いた場合, 組織的な違いがみられた。
我々の研究は、ユーザのロールがモデル応答を暗黙的にどのように形作るかを示し、会話型AIのロールインフォームド評価のための方法論を提供する。
関連論文リスト
- Who's Asking? Evaluating LLM Robustness to Inquiry Personas in Factual Question Answering [15.641627064295237]
アイデンティティや専門知識,信念などの属性を伝達するユーザプロファイルを調査するペルソナに対して,ロバスト性を評価する。
このような手法はQAの精度を有意に変化させ、拒絶、幻覚的制限、役割の混乱といった障害モードを誘発する。
論文 参考訳(メタデータ) (2025-10-14T18:59:15Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles [58.82161879559716]
ドメインエキスパートから定性的なフィードバックを引き出す新しい人間-LLMコラボレーションパイプラインであるRoleplay-dohを開発した。
このパイプラインを適用して、シニアメンタルヘルスサポーターが、シミュレートされた実践パートナのためにカスタマイズされたAI患者を作成できるようにします。
論文 参考訳(メタデータ) (2024-07-01T00:43:02Z) - Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries [91.70689724416698]
本稿では,3つの情報源から自然発生の13.5Kの質問を集めたQuriosityを紹介する。
分析の結果,データセットに因果的疑問(最大42%)が存在することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - SocialBench: Sociality Evaluation of Role-Playing Conversational Agents [85.6641890712617]
大規模言語モデル(LLM)は、様々なAI対話エージェントの開発を進めてきた。
SocialBenchは、ロールプレイングの会話エージェントの社会的性を個人レベルとグループレベルで評価するために設計された最初のベンチマークである。
個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。
論文 参考訳(メタデータ) (2024-03-20T15:38:36Z) - Evaluating Mixed-initiative Conversational Search Systems via User
Simulation [9.066817876491053]
このような検索システムの自動評価のための対話型ユーザシミュレータUSiを提案する。
Ui が生成した応答は,その基盤となる情報要求と同等であり,人間による回答に匹敵するものであることを示す。
論文 参考訳(メタデータ) (2022-04-17T16:27:33Z) - An Empirical Study of Clarifying Question-Based Systems [15.767515065224016]
実験システムをデプロイしてオンライン実験を行い、プロダクトリポジトリに対して明確な質問をすることでユーザと対話する。
暗黙的なインタラクション行動データと,ユーザからの明示的なフィードバックの両方を収集する。 (a)ユーザは,多くの明確な質問(平均11~21件)に回答する意思がありますが,それ以上は多くありません。
論文 参考訳(メタデータ) (2020-08-01T15:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。