Fugu-MT 論文翻訳(概要): Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations

論文の概要: Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations

arxiv url: http://arxiv.org/abs/2506.00074v1
Date: Thu, 29 May 2025 20:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:32.19094
Title: Whose Name Comes Up? Auditing LLM-Based Scholar Recommendations
Title（参考訳）: 名前の由来は誰か? LLMをベースとした奨学金の募集を振り返る
Authors: Daniele Barolo, Chiara Valentin, Fariba Karimi, Luis Galárraga, Gonzalo G. Méndez, Lisette Espín-Noboa,
Abstract要約: 本稿では,5つのタスクにまたがる物理分野の専門家を推薦するために,6つのオープンウェイトLDMの性能を評価する。この評価は、性、民族性、学術的人気、学者の類似性に関連する一貫性、事実性、偏見について検討する。
参考スコア（独自算出の注目度）: 2.548716674644006
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper evaluates the performance of six open-weight LLMs (llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b) in recommending experts in physics across five tasks: top-k experts by field, influential scientists by discipline, epoch, seniority, and scholar counterparts. The evaluation examines consistency, factuality, and biases related to gender, ethnicity, academic popularity, and scholar similarity. Using ground-truth data from the American Physical Society and OpenAlex, we establish scholarly benchmarks by comparing model outputs to real-world academic records. Our analysis reveals inconsistencies and biases across all models. mixtral-8x7b produces the most stable outputs, while llama3.1-70b shows the highest variability. Many models exhibit duplication, and some, particularly gemma2-9b and llama3.1-8b, struggle with formatting errors. LLMs generally recommend real scientists, but accuracy drops in field-, epoch-, and seniority-specific queries, consistently favoring senior scholars. Representation biases persist, replicating gender imbalances (reflecting male predominance), under-representing Asian scientists, and over-representing White scholars. Despite some diversity in institutional and collaboration networks, models favor highly cited and productive scholars, reinforcing the rich-getricher effect while offering limited geographical representation. These findings highlight the need to improve LLMs for more reliable and equitable scholarly recommendations.
Abstract（参考訳）: 本稿では,6つのオープンウェイトLDM (llama3-8b, llama3.1-8b, gemma2-9b, mixtral-8x7b, llama3-70b, llama3.1-70b) の性能評価を行った。この評価は、性、民族性、学術的人気、学者の類似性に関連する一貫性、事実性、偏見について検討する。アメリカ物理学会とOpenAlexの地上データを用いて、モデル出力と実世界の学術記録を比較することによって、学術ベンチマークを確立する。我々の分析では、すべてのモデルに矛盾と偏見が浮かび上がっている。 mixtral-8x7bは最も安定した出力を生成するが、llama3.1-70bは最も高い変動を示す。多くのモデルは重複を示しており、特にgemma2-9bとllama3.1-8bはフォーマットエラーに悩まされている。 LLMは通常、実際の科学者を推奨するが、精度は、フィールド、エポック、そして高齢者特有のクエリに低下し、常に上級研究者を好んでいる。表現バイアスは持続し、性別の不均衡(男性優位の表現)、アジア科学者の表現不足、白人学者の表現過剰が続く。制度的・協力的なネットワークの多様性にもかかわらず、モデルは高度に引用され生産的な学者を好んでおり、地理的に限定された表現を提供しながら富裕層の影響を強めている。これらの知見は、より信頼性が高く公平な学術勧告のためにLLMを改善する必要性を浮き彫りにしている。

関連論文リスト

Who Gets Cited? Gender- and Majority-Bias in LLM-Driven Reference Selection [0.16317061277456998]
本研究では,大規模言語モデル(LLM)における性別バイアスを系統的に研究する。以上の結果から,男性による基準に対する永続的嗜好と,候補プールにおいてどの性別が一般的であるかを優先する多数派偏見の2つの形態が明らかとなった。以上の結果から, LLMは学術的認識において, 既存の男女不均衡を補強・悪化させることができることが示唆された。
論文参考訳（メタデータ） (2025-08-02T13:27:32Z)
Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文参考訳（メタデータ） (2025-02-09T10:54:11Z)
LLMs are Biased Teachers: Evaluating LLM Bias in Personalized Education [6.354025374447606]
パーソナライズされた教育環境において,大きな言語モデル(LLM)をバイアスとして評価する。我々は、異なる人口集団に合わせた教育コンテンツをモデルが生成し、選択する方法について、重大なバイアスを明らかにした。
論文参考訳（メタデータ） (2024-10-17T20:27:44Z)
Gender Biases in LLMs: Higher intelligence in LLM does not necessarily solve gender bias and stereotyping [0.0]
大規模言語モデル(LLM)は、生命のあらゆる面で応用されているが、偏見、特にジェンダーのステレオタイピングに対する感受性は、倫理的懸念を引き起こす。本研究では,新しい方法論,ペルソナに基づく枠組み,および高知能LLMがそのようなバイアスを低減させるか否かを調査するためのユニセックス名手法を紹介する。
論文参考訳（メタデータ） (2024-09-30T05:22:54Z)
Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-27T19:26:11Z)
JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文参考訳（メタデータ） (2024-06-17T09:15:57Z)
Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文参考訳（メタデータ） (2024-05-06T18:09:32Z)
White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。 LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。 LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文参考訳（メタデータ） (2024-04-16T12:27:54Z)
What Do Llamas Really Think? Revealing Preference Biases in Language Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか? 本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文参考訳（メタデータ） (2023-11-30T18:53:13Z)
Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文参考訳（メタデータ） (2023-11-08T18:52:17Z)
"Kelly is a Warm Person, Joseph is a Role Model": Gender Biases in LLM-Generated Reference Letters [97.11173801187816]
大規模言語モデル(LLM)は、個人が様々な種類のコンテンツを書くのを支援する効果的なツールとして最近登場した。本稿では, LLM 生成した参照文字の性別バイアスについて批判的に検討する。
論文参考訳（メタデータ） (2023-10-13T16:12:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。