論文の概要: Observations and Remedies for Large Language Model Bias in Self-Consuming Performative Loop
- arxiv url: http://arxiv.org/abs/2601.05184v1
- Date: Thu, 08 Jan 2026 18:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.326271
- Title: Observations and Remedies for Large Language Model Bias in Self-Consuming Performative Loop
- Title(参考訳): 自己充足型変態ループにおける大規模言語モデルバイアスの観測と改善
- Authors: Yaxuan Wang, Zhongteng Cai, Yujia Bao, Xueru Zhang, Yang Liu,
- Abstract要約: textbfSelf-textbfConsuming textbfPerformative textbfLoop。
本研究では, 動的反復学習過程における生成バイアスにおける合成データの役割について検討した。
- 参考スコア(独自算出の注目度): 17.229330734667474
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has led to growing interest in using synthetic data to train future models. However, this creates a self-consuming retraining loop, where models are trained on their own outputs and may cause performance drops and induce emerging biases. In real-world applications, previously deployed LLMs may influence the data they generate, leading to a dynamic system driven by user feedback. For example, if a model continues to underserve users from a group, less query data will be collected from this particular demographic of users. In this study, we introduce the concept of \textbf{S}elf-\textbf{C}onsuming \textbf{P}erformative \textbf{L}oop (\textbf{SCPL}) and investigate the role of synthetic data in shaping bias during these dynamic iterative training processes under controlled performative feedback. This controlled setting is motivated by the inaccessibility of real-world user preference data from dynamic production systems, and enables us to isolate and analyze feedback-driven bias evolution in a principled manner. We focus on two types of loops, including the typical retraining setting and the incremental fine-tuning setting, which is largely underexplored. Through experiments on three real-world tasks, we find that the performative loop increases preference bias and decreases disparate bias. We design a reward-based rejection sampling strategy to mitigate the bias, moving towards more trustworthy self-improving systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、将来のモデルを訓練するために合成データを使うことへの関心が高まっている。
しかし、これは、モデルが自身のアウトプットでトレーニングされ、パフォーマンス低下を引き起こし、出現するバイアスを引き起こす、自己消費リトレーニングループを生み出します。
現実世界のアプリケーションでは、以前デプロイされたLCMが生成するデータに影響を与える可能性があるため、ユーザからのフィードバックによって駆動される動的システムに繋がる。
例えば、モデルがユーザをグループから保護し続けている場合、この特定のユーザ層からクエリデータが収集されることは少なくなる。
そこで本研究では,これらの動的反復学習過程における合成データの役割を,制御された演奏フィードバック下での形状バイアスにおける合成データの役割について検討する。
この制御された設定は、動的生産システムから現実のユーザ嗜好データにアクセスできないことによるものであり、フィードバック駆動バイアスの進化を原則的に分離し分析することができる。
典型的なリトレーニング設定と、ほとんど探索されていないインクリメンタルな微調整設定を含む、2種類のループに焦点を当てる。
実世界の3つのタスクの実験を通して、性能ループは嗜好バイアスを増大させ、異なる偏見を減少させる。
我々は、偏見を緩和し、より信頼性の高い自己改善システムに移行するために、報酬に基づく拒否サンプリング戦略を設計する。
関連論文リスト
- Sequential Data Augmentation for Generative Recommendation [54.765568804267645]
生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。
データ拡張(Data augmentation)は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスである。
我々は、サンプリングプロセスとして拡張をモデル化し、その結果のトレーニング分布の柔軟な制御を可能にする、原則化されたフレームワークであるGenPASを提案する。
ベンチマークと産業データセットを用いた実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れていることが示された。
論文 参考訳(メタデータ) (2025-09-17T02:53:25Z) - Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。
提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。
提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文 参考訳(メタデータ) (2024-06-04T16:12:27Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。