論文の概要: DeFrame: Debiasing Large Language Models Against Framing Effects
- arxiv url: http://arxiv.org/abs/2602.04306v1
- Date: Wed, 04 Feb 2026 08:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.43237
- Title: DeFrame: Debiasing Large Language Models Against Framing Effects
- Title(参考訳): DeFrame: 大規模な言語モデルがフレーミング効果を損なう
- Authors: Kahee Lim, Soyeon Kim, Steven Euijong Whang,
- Abstract要約: 大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされ、人口統計学的に公正な応答が重要になっていることを保証します。
LLMは標準的な評価では公平に見えるが、評価設定の外でバイアスのある応答を生成することができる。
セマンティックに等価なプロンプトの表現方法の違いであるフレーミングを、このギャップの未発見のコントリビュータとして認識しています。
- 参考スコア(独自算出の注目度): 12.839436067299188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly deployed in real-world applications, ensuring their fair responses across demographics has become crucial. Despite many efforts, an ongoing challenge is hidden bias: LLMs appear fair under standard evaluations, but can produce biased responses outside those evaluation settings. In this paper, we identify framing -- differences in how semantically equivalent prompts are expressed (e.g., "A is better than B" vs. "B is worse than A") -- as an underexplored contributor to this gap. We first introduce the concept of "framing disparity" to quantify the impact of framing on fairness evaluation. By augmenting fairness evaluation benchmarks with alternative framings, we find that (1) fairness scores vary significantly with framing and (2) existing debiasing methods improve overall (i.e., frame-averaged) fairness, but often fail to reduce framing-induced disparities. To address this, we propose a framing-aware debiasing method that encourages LLMs to be more consistent across framings. Experiments demonstrate that our approach reduces overall bias and improves robustness against framing disparities, enabling LLMs to produce fairer and more consistent responses.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界のアプリケーションにますます導入されるにつれて、人口統計学的に公正な対応が重要になっている。
多くの努力にもかかわらず、現在進行中の課題は隠れバイアスである: LLMは標準的な評価では公平に見えるが、それらの評価設定の外でバイアスのある応答を生成することができる。
本稿では, 意味論的に等価なプロンプトの表現方法の違い(例えば "A is better than B" と "B is worse than A" )を, このギャップの未解明の要因として同定する。
フェアネス評価におけるフレーミングの影響を定量化するために,まず「フレーミング格差」の概念を導入する。
フェアネス評価ベンチマークを代替フレーミングで強化することにより、(1)フェアネススコアはフレーミングと大きく異なり、(2)既存のデバイアス法は全体(すなわちフレーム平均)フェアネスを改善するが、フレーミングによる格差を低減できないことが多い。
そこで本稿では, LLM がフレーミング全体にわたってより一貫性を持つようにするためのフレーミング対応脱バイアス法を提案する。
実験により、我々の手法は全体的なバイアスを低減し、フレーミングの相違に対する堅牢性を向上し、LLMがより公平で一貫性のある応答を生成できることが示されている。
関連論文リスト
- HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - More or Less Wrong: A Benchmark for Directional Bias in LLM Comparative Reasoning [10.301985230669684]
本研究では,大規模言語モデルにおける意味的キュー形状推論のメカニズムについて検討する。
我々は300の比較シナリオのベンチマークであるMathCompを紹介する。
モデル誤差は、しばしば言語的ステアリングを反映し、プロンプトに存在する比較項への体系的なシフトを反映している。
論文 参考訳(メタデータ) (2025-06-04T13:15:01Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation [14.521056434373213]
大規模視覚言語モデル (LVLM) はテキスト画像のアライメントを判断するツールとして好まれている。
対人的視覚操作は、LVLM審査員が不当に膨らんだスコアを割り当てることを体系的に騙すことができるか?
敵対的な視覚操作は、LVLM審査員を体系的に騙して不当に膨らませたスコアを割り当てることができるか?
論文 参考訳(メタデータ) (2025-05-21T08:24:28Z) - Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation [19.66750942418172]
オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
論文 参考訳(メタデータ) (2025-03-29T04:36:25Z) - Towards Large Language Models that Benefit for All: Benchmarking Group Fairness in Reward Models [16.977176752570617]
大規模言語モデル(LLM)は、ますます強力で、人間のユーザにとってアクセスしやすくなっている。
多様な人口集団、すなわちグループフェアネスの公平性を保証することは、批判的な倫理的関心事である。
この研究は、学習した報酬モデルのグループフェアネスをベンチマークする。
論文 参考訳(メタデータ) (2025-03-10T19:39:39Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。