論文の概要: Leveraging In-Context Learning for Political Bias Testing of LLMs
- arxiv url: http://arxiv.org/abs/2506.22232v1
- Date: Fri, 27 Jun 2025 13:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.223698
- Title: Leveraging In-Context Learning for Political Bias Testing of LLMs
- Title(参考訳): LLMの政治的バイアステストにおける文脈内学習の活用
- Authors: Patrick Haller, Jannis Vamvas, Rico Sennrich, Lena A. Jäger,
- Abstract要約: 本稿では,人間の調査データをコンテキスト内例として用いた質問応答モデリング(QM)を提案する。
そこで本研究では,QMが質問ベースのバイアス評価の安定性を向上し,命令調整モデルとベースバージョンの比較に使用できることを示す。
- 参考スコア(独自算出の注目度): 44.269860094943354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing body of work has been querying LLMs with political questions to evaluate their potential biases. However, this probing method has limited stability, making comparisons between models unreliable. In this paper, we argue that LLMs need more context. We propose a new probing task, Questionnaire Modeling (QM), that uses human survey data as in-context examples. We show that QM improves the stability of question-based bias evaluation, and demonstrate that it may be used to compare instruction-tuned models to their base versions. Experiments with LLMs of various sizes indicate that instruction tuning can indeed change the direction of bias. Furthermore, we observe a trend that larger models are able to leverage in-context examples more effectively, and generally exhibit smaller bias scores in QM. Data and code are publicly available.
- Abstract(参考訳): LLMには、潜在的なバイアスを評価するための政治的質問が増えている。
しかし、この探索法は安定性が限られており、モデル間の比較は信頼性が低い。
本稿では,LLMがよりコンテキストを必要とすることを論じる。
本稿では,人間の調査データをコンテキスト内例として用いた質問応答モデリング(QM)を提案する。
そこで本研究では,QMが質問ベースのバイアス評価の安定性を向上し,命令調整モデルとベースバージョンの比較に使用できることを示す。
様々な大きさのLLMを用いた実験は、命令チューニングが実際にバイアスの方向を変えることを示唆している。
さらに,大規模モデルの方がコンテキスト内サンプルをより効果的に活用できる傾向が観察され,一般にQMのバイアススコアが小さくなっている。
データとコードは公開されています。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - OLMES: A Standard for Language Model Evaluations [64.85905119836818]
OLMESは、再現可能な言語モデル評価のための文書化された、実用的な、オープンな標準である。
これは、複数の質問の非自然的な「閉じた」定式化を必要とする小さなベースモデル間の有意義な比較をサポートする。
OLMESには、既存の文献の結果によってガイドされた、よく考えられたドキュメント化されたレコメンデーションと、オープンな質問を解決する新しい実験が含まれている。
論文 参考訳(メタデータ) (2024-06-12T17:37:09Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Stick to your Role! Stability of Personal Values Expressed in Large Language Models [19.516125296160638]
異なる文脈における値表現の安定性に関するケーススタディを提案する。
心理学的手法を用いて,人口のランク順安定性について検討した。
モデルおよびモデルファミリーの安定性における一貫した傾向を観察する。
論文 参考訳(メタデータ) (2024-02-19T14:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。