論文の概要: Fragile Preferences: A Deep Dive Into Order Effects in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.14092v1
- Date: Tue, 17 Jun 2025 01:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.280746
- Title: Fragile Preferences: A Deep Dive Into Order Effects in Large Language Models
- Title(参考訳): Fragile Preferences: 大規模言語モデルにおけるディープディーブ・イントゥ・オーダーの効果
- Authors: Haonan Yin, Shai Vardi, Vidyanand Choudhary,
- Abstract要約: 複数の大規模言語モデル(LLM)にまたがる位置バイアスの包括的調査を行う。
選択肢が高品質である場合、モデルは優位性バイアスを示すが、オプションの品質が低い場合は後者の選択肢を好む。
表面張力と判断の真の歪みを区別するために、ペアの選好を頑丈、脆弱、あるいは無関心と分類する枠組みを導入する。
- 参考スコア(独自算出の注目度): 2.3936613583728064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly used in decision-support systems across high-stakes domains such as hiring and university admissions, where decisions often involve selecting among competing alternatives. While prior work has noted positional order biases in LLM-driven comparisons, these biases have not been systematically dissected or linked to underlying preference structures. We provide the first comprehensive investigation of positional biases across multiple LLM architectures and domains, uncovering strong and consistent order effects, including a novel centrality bias not previously documented in human or machine decision-making. We also find a quality-dependent shift: when options are high quality, models exhibit primacy bias, but favor latter options when option quality is low. We further identify a previously undocumented bias favoring certain names over others. To distinguish superficial tie-breaking from true distortions of judgment, we introduce a framework that classifies pairwise preferences as robust, fragile, or indifferent. We show that order effects can lead models to select strictly inferior options, and that positional biases are typically stronger than gender biases. These findings suggest that LLMs are not merely inheriting human-like biases, but exhibit distinct failure modes not seen in human decision-making. We propose targeted mitigation strategies, including a novel use of the temperature parameter, to reduce order-driven distortions.
- Abstract(参考訳): 大規模言語モデル (LLM) は、雇用や大学入試のような高い評価の領域で意思決定支援システムでますます使われており、そこでは、しばしば競合する代替案の中から決定が関与する。
以前の研究では、LLMによる比較において位置順バイアスが指摘されていたが、これらのバイアスは体系的に分離されたり、根底にある選好構造と結びついていなかった。
我々は、複数のLLMアーキテクチャやドメインにまたがる位置バイアスを包括的に調査し、従来人や機械の意思決定で文書化されていなかった新しい集中性バイアスを含む、強固で一貫した順序効果を明らかにする。
選択肢が高品質である場合、モデルは優位性バイアスを示すが、オプションの品質が低い場合は後者の選択肢を好む。
さらに、未文書の偏見が、他の人よりも特定の名前を好んでいることも確認します。
表面張力と判断の真の歪みを区別するために、ペアの選好を頑丈、脆弱、あるいは無関心と分類する枠組みを導入する。
順序効果は、モデルが厳格に劣る選択肢を選択することにつながることを示し、位置バイアスは典型的には性別バイアスよりも強いことを示す。
これらの結果は、LSMは単に人間のように偏見を継承するだけでなく、人間の意思決定では見られない独自の障害モードを示すことを示唆している。
本稿では, 温度パラメータの新たな利用を含む目標緩和戦略を提案し, 秩序駆動歪みの低減を図る。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル(LLM)は、複数の質問に応答するときに、特定の回答の選択を体系的に選好することが多い。
このバイアスは、LCM出力の精度と信頼性を低下させ、決定クリティカルなアプリケーションにおけるそれらの有用性を制限する。
選択バイアスに寄与するパラメータを抽出するBias Node Pruning(BNP)と、ホワイトボックスとブラックボックスの設定の両方でバイアスを減らすためのAuxiliary Option Injection(AOI)の2つの方法を紹介する。
論文 参考訳(メタデータ) (2024-09-27T15:53:54Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - HANS, are you clever? Clever Hans Effect Analysis of Neural Systems [1.6267479602370545]
大規模言語モデル(It-LLM)は、認知状態、意図、そしてすべての人々の反応を推論する優れた能力を示しており、人間は日々の社会的相互作用を効果的にガイドし理解することができる。
モデル能力の確固たる評価を構築するために、MCQ(Multiple-choice Question)ベンチマークがいくつか提案されている。
しかし、初期の研究は、I-LLMに固有の「順序バイアス」があることを示しており、適切な評価に挑戦している。
論文 参考訳(メタデータ) (2023-09-21T20:52:18Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。