論文の概要: RLRF:Reinforcement Learning from Reflection through Debates as Feedback for Bias Mitigation in LLMs
- arxiv url: http://arxiv.org/abs/2404.10160v2
- Date: Sun, 28 Apr 2024 04:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 22:36:34.272313
- Title: RLRF:Reinforcement Learning from Reflection through Debates as Feedback for Bias Mitigation in LLMs
- Title(参考訳): RLRF:LLMにおけるバイアス軽減のフィードバックとしての議論によるリフレクションからの強化学習
- Authors: Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, Tianyu Shi,
- Abstract要約: 大規模言語モデルにおけるバイアスやステレオタイプは、ユーザエクスペリエンスや社会的結果に否定的な影響を及ぼす可能性がある。
Reinforcement Learning from Human Feedbackのようなバイアス軽減への現在のアプローチは、高価な手作業によるフィードバックに依存しています。
RLRF(Reinforcement Learning from Reflection through Debates as Feedback)を提案する。
- 参考スコア(独自算出の注目度): 2.8436446946726552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Biases and stereotypes in Large Language Models (LLMs) can have negative implications for user experience and societal outcomes. Current approaches to bias mitigation like Reinforcement Learning from Human Feedback (RLHF) rely on costly manual feedback. While LLMs have the capability to understand logic and identify biases in text, they often struggle to effectively acknowledge and address their own biases due to factors such as prompt influences, internal mechanisms, and policies. We found that informing LLMs that the content they generate is not their own and questioning them about potential biases in the text can significantly enhance their recognition and improvement capabilities regarding biases. Based on this finding, we propose RLRF (Reinforcement Learning from Reflection through Debates as Feedback), replacing human feedback with AI for bias mitigation. RLRF engages LLMs in multi-role debates to expose biases and gradually reduce biases in each iteration using a ranking scoring mechanism. The dialogue are then used to create a dataset with high-bias and low-bias instances to train the reward model in reinforcement learning. This dataset can be generated by the same LLMs for self-reflection or a superior LLMs guiding the former in a student-teacher mode to enhance its logical reasoning abilities. Experimental results demonstrate the significant effectiveness of our approach in bias reduction.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスとステレオタイプは、ユーザエクスペリエンスと社会的結果に否定的な影響を及ぼす可能性がある。
Reinforcement Learning from Human Feedback (RLHF)のようなバイアス軽減への現在のアプローチは、高価な手作業によるフィードバックに依存している。
LLMには、論理を理解し、テキスト内のバイアスを識別する能力があるが、素早い影響、内部メカニズム、ポリシーなどの要因により、自分たちのバイアスを効果的に認識し、対処するのに苦労することが多い。
テキスト中の潜在的なバイアスについて質問すると、そのバイアスに関する認識と改善能力が著しく向上することがわかった。
そこで本研究では,RLRF(Reinforcement Learning from Reflection through Debates as Feedback)を提案する。
RLRFは、複数ロールの議論にLLMを巻き込み、バイアスを露呈し、ランキングスコア機構を使用して各イテレーションにおけるバイアスを徐々に減少させる。
次に対話を使用して、高バイアスと低バイアスのインスタンスを持つデータセットを作成し、強化学習における報酬モデルをトレーニングする。
このデータセットは、自己回帰のための同じLLMや、生徒-教師モードで前者を指導する優れたLLMによって生成され、その論理的推論能力を高めることができる。
実験の結果, バイアス低減におけるアプローチの有効性が示された。
関連論文リスト
- Benchmarking Bias in Large Language Models during Role-Playing [21.28427555283642]
ロールプレイングにおいて,Large Language Models (LLMs) のバイアスを明らかにするために設計されたフェアネステストフレームワークであるBiasLensを紹介した。
提案手法では,11の属性からなる包括的属性からなる550個のソーシャルロールをLCMを用いて生成し,33,000個のロール固有の質問を生成する。
生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。
我々のベンチマークでは、LLM全体で72,716の偏りが見られ、個々のモデルは7,754から16,963の偏りが生じる。
論文 参考訳(メタデータ) (2024-11-01T13:47:00Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [14.906150451947443]
大規模言語モデル(LLM)における潜在的なバイアスを軽減するために,評価者を支援するため,多発性ICLプロンプトを2つ検討した。
設計したプロンプトに基づいて,テキスト内サンプルのスケーリングが評価結果の一貫性と品質に与える影響について検討する。
GPT-4oのような高度なLCMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。
冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文 参考訳(メタデータ) (2023-10-16T05:19:02Z) - A Survey on Fairness in Large Language Models [28.05516809190299]
大規模言語モデル(LLM)は、強力なパフォーマンスと開発見通しを示している。
LLMは、未処理のトレーニングデータから社会的バイアスをキャプチャし、そのバイアスを下流のタスクに伝達する。
不公平なLLMシステムは、望ましくない社会的影響と潜在的な害がある。
論文 参考訳(メタデータ) (2023-08-20T03:30:22Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。