論文の概要: Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations
- arxiv url: http://arxiv.org/abs/2506.00074v1
- Date: Thu, 29 May 2025 20:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.19094
- Title: Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations
- Title(参考訳): 名前の由来は誰か? LLMをベースとした奨学金の募集を振り返る
- Authors: Daniele Barolo, Chiara Valentin, Fariba Karimi, Luis Galárraga, Gonzalo G. Méndez, Lisette Espín-Noboa,
- Abstract要約: 本稿では,5つのタスクにまたがる物理分野の専門家を推薦するために,6つのオープンウェイトLDMの性能を評価する。
この評価は、性、民族性、学術的人気、学者の類似性に関連する一貫性、事実性、偏見について検討する。
- 参考スコア(独自算出の注目度): 2.548716674644006
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper evaluates the performance of six open-weight LLMs (llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b) in recommending experts in physics across five tasks: top-k experts by field, influential scientists by discipline, epoch, seniority, and scholar counterparts. The evaluation examines consistency, factuality, and biases related to gender, ethnicity, academic popularity, and scholar similarity. Using ground-truth data from the American Physical Society and OpenAlex, we establish scholarly benchmarks by comparing model outputs to real-world academic records. Our analysis reveals inconsistencies and biases across all models. mixtral-8x7b produces the most stable outputs, while llama3.1-70b shows the highest variability. Many models exhibit duplication, and some, particularly gemma2-9b and llama3.1-8b, struggle with formatting errors. LLMs generally recommend real scientists, but accuracy drops in field-, epoch-, and seniority-specific queries, consistently favoring senior scholars. Representation biases persist, replicating gender imbalances (reflecting male predominance), under-representing Asian scientists, and over-representing White scholars. Despite some diversity in institutional and collaboration networks, models favor highly cited and productive scholars, reinforcing the rich-getricher effect while offering limited geographical representation. These findings highlight the need to improve LLMs for more reliable and equitable scholarly recommendations.
- Abstract(参考訳): 本稿では,6つのオープンウェイトLDM (llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b) の性能評価を行った。
この評価は、性、民族性、学術的人気、学者の類似性に関連する一貫性、事実性、偏見について検討する。
アメリカ物理学会とOpenAlexの地上データを用いて、モデル出力と実世界の学術記録を比較することによって、学術ベンチマークを確立する。
我々の分析では、すべてのモデルに矛盾と偏見が浮かび上がっている。
mixtral-8x7bは最も安定した出力を生成するが、llama3.1-70bは最も高い変動を示す。
多くのモデルは重複を示しており、特にgemma2-9bとllama3.1-8bはフォーマットエラーに悩まされている。
LLMは通常、実際の科学者を推奨するが、精度は、フィールド、エポック、そして高齢者特有のクエリに低下し、常に上級研究者を好んでいる。
表現バイアスは持続し、性別の不均衡(男性優位の表現)、アジア科学者の表現不足、白人学者の表現過剰が続く。
制度的・協力的なネットワークの多様性にもかかわらず、モデルは高度に引用され生産的な学者を好んでおり、地理的に限定された表現を提供しながら富裕層の影響を強めている。
これらの知見は、より信頼性が高く公平な学術勧告のためにLLMを改善する必要性を浮き彫りにしている。
関連論文リスト
- Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - "Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in
LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。
本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文 参考訳(メタデータ) (2023-10-13T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。