論文の概要: Fragile Preferences: A Deep Dive Into Order Effects in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.14092v2
- Date: Sun, 17 Aug 2025 03:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.076114
- Title: Fragile Preferences: A Deep Dive Into Order Effects in Large Language Models
- Title(参考訳): Fragile Preferences: 大規模言語モデルにおけるディープディーブ・イントゥ・オーダーの効果
- Authors: Haonan Yin, Shai Vardi, Vidyanand Choudhary,
- Abstract要約: 複数大言語モデル(LLM)における位置バイアスの包括的研究について紹介する。
品質依存的なシフトを含む、強い一貫性のある順序効果が得られます。
また、人的および機械的意思決定において、これまで文書化されていなかった2つのバイアスを特定します。
- 参考スコア(独自算出の注目度): 2.3936613583728064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in decision-support systems for high-stakes domains such as hiring and university admissions, where choices often involve selecting among competing alternatives. While prior work has noted position order biases in LLM-driven comparisons, these biases have not been systematically analyzed or linked to underlying preference structures. We present the first comprehensive study of position biases across multiple LLMs and two distinct domains: resume comparisons, representing a realistic high-stakes context, and color selection, which isolates position effects by removing confounding factors. We find strong and consistent order effects, including a quality-dependent shift: when all options are high quality, models favor the first option, but when quality is lower, they favor later options. We also identify two previously undocumented biases in both human and machine decision-making: a centrality bias (favoring the middle position in triplewise comparisons) and a name bias, where certain names are favored despite controlling for demographic signals. To separate superficial tie-breaking from genuine distortions of judgment, we extend the rational choice framework to classify pairwise preferences as robust, fragile, or indifferent. Using this framework, we show that order effects can lead models to select strictly inferior options, and that position biases are typically stronger than gender biases. These results indicate that LLMs exhibit distinct failure modes not documented in human decision-making. We also propose targeted mitigation strategies, including a novel use of the temperature parameter, to recover underlying preferences when order effects distort model behavior.
- Abstract(参考訳): 大規模言語モデル (LLM) は、採用や大学入試といった高額な分野の意思決定支援システムにおいて、競合する選択肢の中から選択することが多い。
以前の研究では、LLMによる比較において位置順バイアスが指摘されていたが、これらのバイアスは体系的に分析されず、根底にある選好構造と関連付けられていない。
本稿では,複数のLLMおよび2つの異なる領域における位置バイアスに関する最初の総合的研究について述べる。
すべての選択肢が高品質であれば、モデルは第一の選択肢を好むが、品質が低い場合は、後続の選択肢を好む。
また、人的および機械的意思決定において、以前は文書化されていなかった2つのバイアス、すなわち中央性バイアス(三重比較における中位)と名前バイアス(人口統計学的信号の制御にもかかわらず特定の名前が好まれる)を特定した。
表面的な結び目と真の判断の歪みを区別するために、合理的選択の枠組みを拡張して、ペアの選好を堅牢、脆弱、あるいは無関心と分類する。
この枠組みを用いて、順序効果はモデルに厳格に劣る選択肢を選択させ、位置バイアスは一般に性別バイアスよりも強いことを示す。
これらの結果から,LSMは人為的意思決定において記録されていない障害モードを示すことが明らかとなった。
また、温度パラメータの新たな利用を含む目標緩和戦略を提案し、秩序効果がモデル挙動を歪ませる際の基本的嗜好を復元する。
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル(LLM)は、複数の質問に応答するときに、特定の回答の選択を体系的に選好することが多い。
このバイアスは、LCM出力の精度と信頼性を低下させ、決定クリティカルなアプリケーションにおけるそれらの有用性を制限する。
選択バイアスに寄与するパラメータを抽出するBias Node Pruning(BNP)と、ホワイトボックスとブラックボックスの設定の両方でバイアスを減らすためのAuxiliary Option Injection(AOI)の2つの方法を紹介する。
論文 参考訳(メタデータ) (2024-09-27T15:53:54Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Going Beyond Popularity and Positivity Bias: Correcting for Multifactorial Bias in Recommender Systems [74.47680026838128]
ユーザインタラクションデータとレコメンダシステム(RS)の2つの典型的なバイアスは、人気バイアスと肯定バイアスである。
項目と評価値の双方に影響される多因子選択バイアスについて検討する。
分散を低減し、最適化の堅牢性を向上させるため、スムースで交互に勾配降下する手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T12:18:21Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。