Fugu-MT 論文翻訳(概要): LLMs Are Not a Silver Bullet: A Case Study on Software Fairness

論文の概要: LLMs Are Not a Silver Bullet: A Case Study on Software Fairness

arxiv url: http://arxiv.org/abs/2604.12640v1
Date: Tue, 14 Apr 2026 12:11:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.428176
Title: LLMs Are Not a Silver Bullet: A Case Study on Software Fairness
Title（参考訳）: LLMは銀の弾丸ではない - ソフトウェアフェアネスのケーススタディ
Authors: Xinyue Li, Sixuan Li, Ying Xiao, Jie M. Zhang, Zhou Yang, Xuanzhe Liu, Zhenpeng Chen,
Abstract要約: フェアネスは、人間関係のハイテイクなソフトウェアシステムにとって重要な要件である。我々は,最先端機械学習(ML)と大規模言語モデル(LLM)のバイアス緩和手法を比較した。 MLに基づく手法は、公平性と予測性能の両方において、LCMベースの手法を一貫して上回っていることがわかった。
参考スコア（独自算出の注目度）: 18.19943021290632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fairness is a critical requirement for human-related, high-stakes software systems, motivating extensive research on bias mitigation. Prior work has largely focused on tabular data settings using traditional Machine Learning (ML) methods. With the rapid rise of Large Language Models (LLMs), recent studies have begun to explore their use for bias mitigation in the same setting. However, it remains unclear whether LLM-based methods offer advantages over traditional ML methods, leaving software engineers without clear guidance for practical adoption. To address this gap, we present a large-scale study comparing state-of-the-art ML- and LLM-based bias mitigation methods. We find that ML-based methods consistently outperform LLM-based methods in both fairness and predictive performance, with even strong LLMs failing to surpass established ML baselines. To understand why prior LLM-based studies report favorable results, we analyze their evaluation settings and show that these gains are largely driven by artificially balanced test data rather than realistic imbalanced distributions. We further observe that existing LLM-based methods primarily rely on in-context learning and thus fail to leverage all available training data. Motivated by this, we explore supervised fine-tuning on the full training set and find that, while it achieves competitive results, its advantages over traditional ML methods remain limited. These findings suggest that LLMs are not a silver bullet for software fairness.
Abstract（参考訳）: 公平さは人間関係のハイテイクなソフトウェアシステムにとって重要な要件であり、バイアス軽減に関する広範な研究を動機付けている。これまでの作業は主に、従来の機械学習(ML)メソッドを使用した表形式のデータ設定に重点を置いていた。 LLM(Large Language Models)の急激な増加に伴い、最近の研究は、バイアス軽減のために同じ環境での利用を探求し始めている。しかし、LLMベースの手法が従来のML手法よりも利点があるかどうかは不明である。このギャップに対処するため、我々は最先端のMLとLLMに基づくバイアス緩和法を比較した大規模な研究を行った。 MLに基づく手法は,精巧さと予測性能の両方においてLLMの手法を一貫して上回り,強力なLSMでさえ確立されたMLベースラインを上回りません。 LLMによる先行研究が好意的な結果を報告した理由を理解するため、評価設定を分析し、これらの利得は現実的な不均衡分布ではなく、人工的にバランスの取れたテストデータに大きく左右されることを示した。さらに、既存のLLMベースの手法は、主にコンテキスト内学習に依存しているため、利用可能なトレーニングデータをすべて活用できないことを観察する。そこで本研究では,フルトレーニングセットの教師付き微調整について検討し,競争力のある結果を得たものの,従来のML手法に比べて優位性は限定的であることを確認した。これらの結果は、LLMはソフトウェアフェアネスの銀の弾丸ではないことを示唆している。

関連論文リスト

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis [21.171990974350773]
大規模言語モデル(LLM)は、モデル出力のスケーラブルな評価手段として、ますます使われています。彼らの選好判断は体系的な偏見を示し、人間の評価から分岐することができる。 LLM判定の動作を解析するための埋め込みレベルの概念抽出法について検討した。
論文参考訳（メタデータ） (2026-02-09T20:55:16Z)
Nonparametric LLM Evaluation from Preference Data [86.96268870461472]
本研究では,大規模言語モデル (LLM) を選好データから比較・ランク付けするための非パラメトリック統計フレームワークDMLEvalを提案する。我々のフレームワークは、LLMを比較したり、ランキングしたりするための強力な最先端の手法を実践者に提供します。
論文参考訳（メタデータ） (2026-01-29T15:00:07Z)
Selective LLM-Guided Regularization for Enhancing Recommendation Models [7.406718588794206]
トレーニング可能なゲーティング機構がユーザ履歴の長さやアイテムの人気,モデルの不確実性によってLCMの信頼性が予測される場合にのみ,LCMに基づくペアワイズランキング管理を活性化する,モデルに依存しない効率的なフレームワークを提案する。複数のデータセットにまたがる実験により、この選択的戦略は全体的な精度を一貫して改善し、コールドスタートとロングテールレジームにおいてかなりの利益をもたらし、世界的な蒸留ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2025-12-25T06:30:00Z)
Enhancing Rating Prediction with Off-the-Shelf LLMs Using In-Context User Reviews [16.394933051332657]
等級評価予測は、言語と数学的推論の両方を効果的に解く必要がある回帰タスクである。本研究では,市販LCMの性能を評価予測に用い,異なるコンテキスト情報を提供する。ユーザによるレビューでは,LCMのレーティング予測性能が大幅に向上していることがわかった。
論文参考訳（メタデータ） (2025-10-01T03:04:20Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Fairness in Large Language Models: A Taxonomic Survey [2.669847575321326]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。多くの実世界のアプリケーションで有望な性能を示したにもかかわらず、これらのアルゴリズムのほとんどは公平さを考慮に入れていない。
論文参考訳（メタデータ） (2024-03-31T22:22:53Z)
Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文参考訳（メタデータ） (2024-02-19T11:11:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。