論文の概要: Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation
- arxiv url: http://arxiv.org/abs/2605.28187v1
- Date: Wed, 27 May 2026 09:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.920393
- Title: Whose Name Comes Up? III: Persona Prompting Effects in LLM-Based Scholar Recommendation
- Title(参考訳): だれの名前が出てくるか : III: LLMをベースとした奨学金制度におけるペルソナプロンプト効果
- Authors: Annabella Sánchez-Guzmán, Lukas Eberhard, Denis Helic, Lisette Espín-Noboa,
- Abstract要約: 大きな言語モデル (LLMs) は、学業の専門家と見なされる学者の推薦者として、ますます使われている。
既存の監査は英語中心、単一規律、ペルソナ非依存のままであり、アウトプットの多様性の源泉はよく分かっていない。
本稿では,モデル選択の影響を解消し,レコメンデーションに対する設計の促進を図るベンチマークを提案する。
- 参考スコア(独自算出の注目度): 1.6011907050002951
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used as scholar recommenders, shaping who is seen as an expert in academia. Existing audits remain English-centric, single discipline, and persona-agnostic, leaving the source of output variability poorly understood. To this end, we propose a benchmark that disentangles the effects of model choice and prompt design on recommendations. We audit 43 LLMs by varying persona prompts (language, location, role-and-task) and context (field, seniority, k). Recommended scholars are compared against Semantic Scholar over six scientific disciplines to measure technical quality (factuality, coverage) and social representativeness (diversity, parity). Basic technical quality is driven by model choice, factuality and parity by context, and diversity by location. South Africa prompts yield less factual lists, while Japan prompts yield highly factual but homogeneous lists skewed toward highly productive scholars. Prompt design is thus a non-trivial axis of LLM-based scholar discovery and should be systematically audited alongside model choice.
- Abstract(参考訳): 大きな言語モデル (LLMs) は、学業の専門家と見なされる学者の推薦者として、ますます使われている。
既存の監査は英語中心、単一規律、ペルソナ非依存のままであり、アウトプットの多様性の源泉はよく分かっていない。
そこで本研究では,モデル選択の影響を解消し,レコメンデーションに設計を促すベンチマークを提案する。
43のLPMを言語,場所,役割・タスク)と文脈(フィールド,高齢者,k)によって評価する。
推奨された学者は、技術的品質(事実性、カバレッジ)と社会的代表性(多様性、パーティ)を測定するための6つの科学分野に対してセマンティック・スカラーと比較される。
基本的な技術的品質は、モデルの選択、事実性、文脈によるパリティ、場所による多様性によって駆動されます。
南アフリカは、実質的なリストを減らし、日本は、高度に生産的な学者に対して、非常に事実的だが均質なリストを産み出す。
したがって、プロンプト設計はLLMに基づく学術的発見の非自明な軸であり、モデル選択とともに体系的に監査されるべきである。
関連論文リスト
- Automated Novelty Evaluation of Academic Paper: A Collaborative Approach Integrating Human and Large Language Model Knowledge [9.208744138848765]
学術論文における最も一般的なノベルティの1つは、新しい方法の導入である。
本稿では,論文の手法の新規性を予測するための事前学習言語モデル(PLM)を支援するために,人間の知識とLLMを活用することを提案する。
論文 参考訳(メタデータ) (2025-07-15T14:03:55Z) - Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations [2.2284594657996095]
本稿では,5つのタスクにまたがる物理分野の専門家を推薦するために,6つのオープンウェイトLDMの性能を評価する。
この評価は、性、民族性、学術的人気、学者の類似性に関連する一貫性、事実性、偏見について検討する。
論文 参考訳(メタデータ) (2025-05-29T20:11:11Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。