論文の概要: Prompting Science Report 4: Playing Pretend: Expert Personas Don't Improve Factual Accuracy
- arxiv url: http://arxiv.org/abs/2512.05858v1
- Date: Fri, 05 Dec 2025 16:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.099747
- Title: Prompting Science Report 4: Playing Pretend: Expert Personas Don't Improve Factual Accuracy
- Title(参考訳): Prompting Science Report 4: Playing Pretend: Expert Personas Don't improves Factual Accuracy
- Authors: Savir Basil, Ina Shapiro, Dan Shapiro, Ethan Mollick, Lilach Mollick, Lennart Meincke,
- Abstract要約: これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのに役立つ一連の短いレポートの4番目である。
- 参考スコア(独自算出の注目度): 0.49259062564301753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is the fourth in a series of short reports that help business, education, and policy leaders understand the technical details of working with AI through rigorous testing. Here, we ask whether assigning personas to models improves performance on difficult objective multiple-choice questions. We study both domain-specific expert personas and low-knowledge personas, evaluating six models on GPQA Diamond (Rein et al. 2024) and MMLU-Pro (Wang et al. 2024), graduate-level questions spanning science, engineering, and law. We tested three approaches: -In-Domain Experts: Assigning the model an expert persona ("you are a physics expert") matched to the problem type (physics problems) had no significant impact on performance (with the exception of the Gemini 2.0 Flash model). -Off-Domain Experts (Domain-Mismatched): Assigning the model an expert persona ("you are a physics expert") not matched to the problem type (law problems) resulted in marginal differences. -Low-Knowledge Personas: We assigned the model negative capability personas (layperson, young child, toddler), which were generally harmful to benchmark accuracy. Across both benchmarks, persona prompts generally did not improve accuracy relative to a no-persona baseline. Expert personas showed no consistent benefit across models, with few exceptions. Domain-mismatched expert personas sometimes degraded performance. Low-knowledge personas often reduced accuracy. These results are about the accuracy of answers only; personas may serve other purposes (such as altering the tone of outputs), beyond improving factual performance.
- Abstract(参考訳): これは、ビジネス、教育、政策リーダーが厳格なテストを通じてAIを扱う技術的詳細を理解するのに役立つ一連の短いレポートの4番目である。
ここでは,モデルにペルソナを割り当てることによって,難易度の高い多目的質問のパフォーマンスが向上するかどうかを問う。
GPQA Diamond (Rein et al 2024) とMMLU-Pro (Wang et al 2024) の6つのモデル, 理科, 工学, 法学を対象とする大学院レベルの課題について検討した。
In-Domain Experts: モデルに専門家のペルソナ(あなたが物理学の専門家)を割り当てると、問題タイプ(物理学の問題)にマッチする(Gemini 2.0 Flashモデルを除いて)。
-Off-Domain Experts (Domain-Mismatched):モデルに専門家のペルソナを割り当てる(あなたが物理の専門家である)と、問題の種類(法的な問題)には一致しないため、差が小さかった。
ロー・カウンセッジ・ペルソナ: 概ねベンチマーク精度に有害な負の能力ペルソナ(レイパーソン, 幼児, 幼児)を割り当てた。
両方のベンチマークで、ペルソナのプロンプトは、通常、非ペルソナのベースラインに対する精度を向上しなかった。
専門家のペルソナは、ほとんど例外なく、モデル間で一貫したメリットを示しなかった。
ドメインミスした専門家のペルソナは時にパフォーマンスを低下させました。
低知識の人格はしばしば精度を低下させる。
ペルソナは他の目的(アウトプットのトーンを変更するなど)に役立ち、実際のパフォーマンスを改善することができる。
関連論文リスト
- Principled Personas: Defining and Measuring the Intended Effects of Persona Prompting on Task Performance [34.44127383034434]
課題改善を促すペルソナの文献を分析した。
専門家のペルソナは、通常、肯定的あるいは非重要なパフォーマンス変化につながる。
堅牢性を改善するための緩和戦略を提案しています。
論文 参考訳(メタデータ) (2025-08-27T10:40:57Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - PhD Knowledge Not Required: A Reasoning Challenge for Large Language Models [41.85078638790154]
既存のフロンティアモデルのベンチマークは、非専門家が把握するのが難しい専門的な"PhDレベル"の知識をテストすることが多い。
一般知識のみを必要とするNPRサンデー・パズル・チャレンジに基づく594の問題点のベンチマークを提示する。
私たちのベンチマークは人間とモデルの両方にとって難しいものですが、正しいソリューションを検証するのは簡単で、モデルのミスを見つけるのは簡単です。
論文 参考訳(メタデータ) (2025-02-03T18:10:38Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。