論文の概要: User-Assistant Bias in LLMs
- arxiv url: http://arxiv.org/abs/2508.15815v1
- Date: Sat, 16 Aug 2025 20:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.083879
- Title: User-Assistant Bias in LLMs
- Title(参考訳): LLMにおけるユーザ支援バイアス
- Authors: Xu Pan, Jingxuan Fan, Zidi Xiong, Ely Hahami, Jorin Overwiening, Ziqian Xie,
- Abstract要約: 大規模言語モデル(LLM)は、チャット履歴における自身の情報やユーザの情報への依存に偏りがあり、マルチターン会話において過度に頑固あるいは同意的な振る舞いをもたらす。
我々は,フロンティアLLMにおけるユーザ・アシスタントバイアスをベンチマークし,理解し,操作するために,8kのマルチターン会話データセットであるtextbfUserAssist$を導入している。
- 参考スコア(独自算出の注目度): 11.825607435336776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) can bias towards relying on their own or the user's information in chat history, leading to overly stubborn or agreeable behaviors in multi-turn conversations. In this paper, we formalize this model characteristic as user-assistant bias and introduce an 8k multi-turn conversation dataset $\textbf{UserAssist}$, which we use to benchmark, understand and manipulate the user-assistant bias in frontier LLMs. Leveraging $\textbf{UserAssist-test}$, we first benchmark the user-assistant bias of 26 commercial and 26 open-weight models. Commercial models show various levels of user bias. Evaluation on open-weight models reveals significant user bias in the instruction-tuned models, and weak user bias in reasoning (or reasoning-distilled) models. We then perform controlled fine-tuning experiments to pinpoint the post-training recipe contributing to these bias shifts: human preference alignment increases user bias, while training on chain-of-thought reasoning traces decreases it. Finally, we demonstrate that user-assistant bias can be bidirectionally adjusted by performing direct preference optimization (DPO) on $\textbf{UserAssist-train}$, and generalizes well to both in-domain and out-of-domain conversations. Our results provide insights into how the LLM integrates information from different sources, and also a viable way to detect and control model abnormalities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チャット履歴における自身の情報やユーザの情報への依存に偏りがあり、マルチターン会話において過度に頑固あるいは同意的な振る舞いをもたらす。
本稿では,このモデルの特徴をユーザ・アシスタントバイアスとして形式化し,フロンティアのユーザ・アシスタントバイアスをベンチマークし,理解し,操作するために使用する8kのマルチターン会話データセットである$\textbf{UserAssist}$を導入する。
$\textbf{UserAssist-test}$を活用することで、26の商用モデルと26のオープンウェイトモデルのユーザアシストバイアスをベンチマークします。
商業モデルは様々なレベルのユーザーバイアスを示す。
オープンウェイトモデルの評価は、命令調整されたモデルにおいて顕著なユーザバイアスを示し、推論(または推論蒸留)モデルでは弱いユーザバイアスを示す。
次に、制御された微調整実験を行い、これらのバイアスシフトに寄与するポストトレーニングレシピを特定する。
最後に、$\textbf{UserAssist-train}$上で直接選好最適化(DPO)を行うことで、ユーザ・アシストバイアスを双方向に調整できることを示す。
この結果は,LLMが異なるソースからの情報をどのように統合するか,およびモデル異常の検出と制御を行うための有効な方法である。
関連論文リスト
- Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models [15.53216696218776]
本稿では,大きな言語モデル(LLM)において,曖昧な比較プロンプトが提供される場合のバイアスの発生メカニズムについて検討する。
本稿では,LLMの特定の層にバイアスを局所化する手法である$textttATLAS$を提案する。
論文 参考訳(メタデータ) (2024-10-29T20:15:56Z) - Debiasing Multimodal Models via Causal Information Minimization [65.23982806840182]
我々は、マルチモーダルデータのための因果グラフにおいて、共同創設者から生じるバイアスを研究する。
ロバストな予測機能は、モデルがアウト・オブ・ディストリビューションデータに一般化するのに役立つ多様な情報を含んでいる。
これらの特徴を共同設立者表現として使用し、因果理論によって動機づけられた手法を用いてモデルからバイアスを取り除く。
論文 参考訳(メタデータ) (2023-11-28T16:46:14Z) - Fast Model Debias with Machine Unlearning [54.32026474971696]
ディープニューラルネットワークは多くの現実世界のシナリオでバイアスのある振る舞いをする。
既存のデバイアス法は、バイアスラベルやモデル再トレーニングのコストが高い。
バイアスを特定し,評価し,除去するための効率的なアプローチを提供する高速モデル脱バイアスフレームワーク(FMD)を提案する。
論文 参考訳(メタデータ) (2023-10-19T08:10:57Z) - Soft-prompt Tuning for Large Language Models to Evaluate Bias [0.03141085922386211]
ソフトプロンプトを用いてバイアスを評価することで、人間のバイアス注入を避けるというメリットが得られます。
グループフェアネス(バイアス)を用いて、異なる感度属性のモデルバイアスをチェックし、興味深いバイアスパターンを見つけます。
論文 参考訳(メタデータ) (2023-06-07T19:11:25Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。