論文の概要: Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO
- arxiv url: http://arxiv.org/abs/2603.21016v1
- Date: Sun, 22 Mar 2026 02:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.194961
- Title: Mitigating Selection Bias in Large Language Models via Permutation-Aware GRPO
- Title(参考訳): 置換を考慮したGRPOによる大規模言語モデルの選択バイアスの緩和
- Authors: Jinquan Zheng, Jia Yuan, Jiacheng Yao, Chenyang Gu, Pujun Zheng, Guoxiu He,
- Abstract要約: 大規模な言語モデルは、オプションの位置やラベル記号のような非意味的な要因による選択バイアスを示すことが多い。
本稿では,置換対応群相対ポリシー最適化(PA-GRPO)を提案する。
- 参考スコア(独自算出の注目度): 5.442224574457385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) used for multiple-choice and pairwise evaluation tasks often exhibit selection bias due to non-semantic factors like option positions and label symbols. Existing inference-time debiasing is costly and may harm reasoning, while pointwise training ignores that the same question should yield consistent answers across permutations. To address this issue, we propose Permutation-Aware Group Relative Policy Optimization (PA-GRPO), which mitigates selection bias by enforcing permutation-consistent semantic reasoning. PA-GRPO constructs a permutation group for each instance by generating multiple candidate permutations, and optimizes the model using two complementary mechanisms: (1) cross-permutation advantage, which computes advantages relative to the mean reward over all permutations of the same instance, and (2) consistency-aware reward, which encourages the model to produce consistent decisions across different permutations. Experimental results demonstrate that PA-GRPO outperforms strong baselines across seven benchmarks, substantially reducing selection bias while maintaining high overall performance. The code will be made available on Github (https://github.com/ECNU-Text-Computing/PA-GRPO).
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数選択およびペア評価タスクに使用されるが、オプション位置やラベル記号のような非意味的な要因によって選択バイアスが生じることが多い。
既存の推論時間のデバイアスはコストが高く、推論に悪影響を及ぼす可能性があるが、ポイントワイドトレーニングでは、同じ質問が置換全体で一貫した回答をもたらすべきであることを無視する。
この問題に対処するために,置換対応グループ相対ポリシー最適化 (PA-GRPO) を提案する。
PA-GRPOは、複数の候補の置換を生成することによって各インスタンスの置換群を構築し、2つの相補的なメカニズムを用いてモデルを最適化する。
実験の結果,PA-GRPOは7つのベンチマークで高いベースライン性能を示し,高い性能を維持しながら選択バイアスを大幅に低減した。
コードはGithub(https://github.com/ECNU-Text-Computing/PA-GRPO)で入手できる。
関連論文リスト
- Succinct QUBO formulations for permutation problems by sorting networks [0.1590850178837849]
比較交換ネットワークを用いた置換に対するQUBOの定式化を導入し,バイナリ変数は$O(n log2 n)$である。
提案手法の中心的な特徴は、各置換が一意な変数の割り当てに対応し、偏りのないサンプリングを可能にすることである。
制約付き置換の非バイアスサンプリングが重要である地域では,本手法が実用上有用であることが期待されている。
論文 参考訳(メタデータ) (2026-03-08T10:37:52Z) - Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - Reasoning Planning for Language Models [23.519351730129426]
本稿では,コントラスト学習フレームワークであるEPICを紹介する。
EPICは、モデル推論能力とクエリメソッド互換性の両方をキャプチャする共有表現空間を学習する。
多様な数学的推論タスクの実験は、EPICが常に最適な推論方法を選択することを示している。
論文 参考訳(メタデータ) (2025-11-01T11:51:53Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Compositional Generalization without Trees using Multiset Tagging and
Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。
次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。
我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文 参考訳(メタデータ) (2023-05-26T14:09:35Z) - Probabilistic Permutation Graph Search: Black-Box Optimization for
Fairness in Ranking [53.94413894017409]
本稿では、置換グラフの概念に基づいて、置換分布を表現する新しい方法を提案する。
PLと同様に、PPGと呼ばれる分布表現は、公正性のブラックボックス最適化に利用できる。
論文 参考訳(メタデータ) (2022-04-28T20:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。