Fugu-MT 論文翻訳(概要): Responsible Intelligence in Practice: A Fairness Audit of Open Large Language Models for Library Reference Services

論文の概要: Responsible Intelligence in Practice: A Fairness Audit of Open Large Language Models for Library Reference Services

arxiv url: http://arxiv.org/abs/2602.18935v1
Date: Sat, 21 Feb 2026 19:05:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.403079
Title: Responsible Intelligence in Practice: A Fairness Audit of Open Large Language Models for Library Reference Services
Title（参考訳）: 実践における責任のあるインテリジェンス:図書館参照サービスのためのオープンな大規模言語モデルの公正監査
Authors: Haining Wang, Jason Clark, Angelica Peña,
Abstract要約: 大規模言語モデル(LLM)は、情報支援へのアクセスを拡大する可能性を提供するが、トレーニングデータに埋め込まれた社会的バイアスを再現することもある。本稿では,診断分類を併用した系統的評価手法を適用し,系統的差異と言語学的差異を検知し,その情報源を解釈する。人種・民族による体系的な分化の証拠は見つからず、一つのモデルにおける性関係の分化の小さな証拠しか見つからない。
参考スコア（独自算出の注目度）: 1.9402967965814402
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: As libraries explore large language models (LLMs) as a scalable layer for reference services, a core fairness question follows: can LLM-based services support all patrons fairly, regardless of demographic identity? While LLMs offer great potential for broadening access to information assistance, they may also reproduce societal biases embedded in their training data, potentially undermining libraries' commitments to impartial service. In this chapter, we apply a systematic evaluation approach that combines diagnostic classification to detect systematic differences with linguistic analysis to interpret their sources. Across three widely used open models (Llama-3.1 8B, Gemma-2 9B, and Ministral 8B), we find no compelling evidence of systematic differentiation by race/ethnicity, and only minor evidence of sex-linked differentiation in one model. We discuss implications for responsible AI adoption in libraries and the importance of ongoing monitoring in aligning LLM-based services with core professional values.
Abstract（参考訳）: ライブラリが大規模言語モデル(LLM)を、参照サービスのスケーラブルなレイヤとして探求する中で、中心となる公平性に関する疑問は次のとおりである。 LLMベースのサービスは、人口統計の同一性に関わらず、すべてのパトロンを公平にサポートできるだろうか? LLMは、情報支援へのアクセスを拡大する大きな可能性を提供する一方で、トレーニングデータに埋め込まれた社会的バイアスを再現する可能性もあり、図書館の公平なサービスへのコミットメントを損なう可能性がある。本章では, 診断分類を併用した系統的評価手法を適用し, 系統的差異と言語学的差異を検知し, 情報源を解釈する。広く使われている3つのオープンモデル(Llama-3.1 8B、Gemma-2 9B、Ministral 8B)で、人種・民族性による体系的な分化の証拠は見つからず、1つのモデルにおいて性に結びついた分化の小さな証拠しか見つからない。図書館におけるAI導入の責任と,LLMベースのサービスとコアとなる専門的価値の整合化における監視の継続の重要性について論じる。

関連論文リスト

Classifying German Language Proficiency Levels Using Large Language Models [0.24683296459020942]
本稿では,ドイツ語の文章を異なる習熟度に分類するために,Large Language Models (LLMs) を用いて検討する。頑健なトレーニングと評価を支援するため,既存のCEFR注釈コーパスを合成データと組み合わせ,多様なデータセットを構築した。提案手法は従来の手法に比べて一貫した性能向上を示し,信頼性とスケーラブルなCEFR分類のためのLCMの可能性を強調した。
論文参考訳（メタデータ） (2025-12-06T16:15:45Z)
SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文参考訳（メタデータ） (2025-08-27T12:56:57Z)
Towards a Holistic and Automated Evaluation Framework for Multi-Level Comprehension of LLMs in Book-Length Contexts [19.640586886024952]
HAMLETは、大規模言語モデルの長文理解を評価するためのフレームワークである。テキストをルート、ブランチ、リーフレベルで3段階のキーファクト階層に構造化する。クエリ中心の要約を使用して、モデルがどのようにして各レベルで情報をリコールし、忠実に表現するかを評価する。
論文参考訳（メタデータ） (2025-08-27T05:23:22Z)
Fairness Evaluation of Large Language Models in Academic Library Reference Services [6.335631290002225]
大規模言語モデル (LLM) が, 性別, 人種・民族, 制度的役割の異なるパトロンを支援するために, 6つの最先端のLDMを誘導することにより, ユーザアイデンティティ間で応答を区別するか否かを評価する。人種や民族による差別の証拠は見つからず、1つのモデルで女性に対するステレオタイプ的偏見の小さな証拠しか見つからなかった。これらの結果から,現在のLCMは,学術図書館参照サービスにおける公平かつ適切なコミュニケーションを支援するための,有望な準備の度合いを示すことが示唆された。
論文参考訳（メタデータ） (2025-07-06T03:28:24Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Analyzing Fairness of Classification Machine Learning Model with Structured Dataset [1.0923877073891446]
本研究では,分類タスクにおける構造化データセットに適用された機械学習モデルの公平性について検討する。 3つのフェアネスライブラリ、MicrosoftのFairlearn、IBMのAIF360、GoogleのWhat If Toolが採用されている。この研究は、MLモデルのバイアスの程度を評価し、これらのライブラリの有効性を比較し、実践者に対して実行可能な洞察を導出することを目的としている。
論文参考訳（メタデータ） (2024-12-13T06:31:09Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文参考訳（メタデータ） (2023-09-02T00:32:55Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。