論文の概要: Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.06011v1
- Date: Sat, 08 Mar 2025 02:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:35.129153
- Title: Intent-Aware Self-Correction for Mitigating Social Biases in Large Language Models
- Title(参考訳): 大規模言語モデルにおける社会的バイアスの緩和のためのインテント・アウェア・セルフコレクション
- Authors: Panatchakorn Anantaprayoon, Masahiro Kaneko, Naoaki Okazaki,
- Abstract要約: フィードバックに基づく自己補正は大規模言語モデル(LLM)の出力品質を改善する
本研究では,自己補正によるLLMのバイアスを効果的に軽減するために,意図を明確にすることが重要であることを示す。
- 参考スコア(独自算出の注目度): 38.1620443730172
- License:
- Abstract: Self-Correction based on feedback improves the output quality of Large Language Models (LLMs). Moreover, as Self-Correction functions like the slow and conscious System-2 thinking from cognitive psychology's perspective, it can potentially reduce LLMs' social biases. LLMs are sensitive to contextual ambiguities and inconsistencies; therefore, explicitly communicating their intentions during interactions when applying Self-Correction for debiasing is crucial. In this study, we demonstrate that clarifying intentions is essential for effectively reducing biases in LLMs through Self-Correction. We divide the components needed for Self-Correction into three parts: instruction, response, and feedback, and clarify intentions at each component. We incorporate an explicit debiasing prompt to convey the intention of bias mitigation from the instruction for response generation. In the response, we use Chain-of-Thought (CoT) to clarify the reasoning process. In the feedback, we define evaluation aspects necessary for debiasing and propose clear feedback through multi-aspect critiques and scoring. Through experiments, we demonstrate that self-correcting CoT responses obtained from a debiasing prompt based on multi-aspect feedback can reduce biased responses more robustly and consistently than the baselines. We also find the variation in debiasing efficacy when using models with different bias levels or separating models for response and feedback generation.
- Abstract(参考訳): フィードバックに基づく自己補正は、Large Language Models(LLMs)の出力品質を改善する。
さらに、認知心理学の観点から考えるシステム2のような自己補正機能により、LLMの社会的バイアスを減少させる可能性がある。
LLMは文脈的曖昧さや不整合に敏感であるため、デバイアスに自己補正を適用する場合、相互作用中の意図を明確に伝達することが重要である。
本研究では,自己補正によるLLMのバイアスを効果的に軽減するために,意図を明確にすることが重要であることを示す。
我々は、自己補正に必要なコンポーネントを、指示、応答、フィードバックの3つの部分に分割し、各コンポーネントにおける意図を明確にする。
我々は、応答生成の指示からバイアス軽減の意図を伝えるために、明示的な偏りのプロンプトを組み込んだ。
応答では、推論プロセスを明確にするためにChain-of-Thought(CoT)を使用します。
フィードバックでは、偏りを抑えるのに必要な評価の側面を定義し、マルチアスペクトの批判とスコアリングを通して明確なフィードバックを提案する。
実験により,マルチアスペクトフィードバックに基づくデバイアスングプロンプトから得られた自己補正CoT応答が,ベースラインよりも頑健かつ一貫したバイアス応答を低減できることが実証された。
また、バイアスレベルの異なるモデルを使用したり、応答とフィードバックの生成のためのモデルを切り離したりする場合、デバイアス効果のばらつきも見出す。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Self-correction is Not An Innate Capability in Large Language Models: A Case Study of Moral Self-correction [8.61034573238112]
我々は、道徳的自己補正は大規模言語モデル(LLM)の本質的な能力ではないと論じる。
我々は,CoT(Chain-of-Thought)推論や外部フィードバックといった自己補正の重要な構成要素が,道徳的自己補正を実現するためにどのように相互作用するかを,機械論的に分析する。
論文 参考訳(メタデータ) (2024-10-27T16:52:21Z) - "My Grade is Wrong!": A Contestable AI Framework for Interactive Feedback in Evaluating Student Essays [6.810086342993699]
本稿では,対話型フィードバックを自動生成するContestable AI Empowered LLM FrameworkであるCAELFを紹介する。
CAELFは、マルチエージェントシステムと計算的議論を統合することで、学生がフィードバックをクエリし、挑戦し、明確化することができる。
ユーザスタディを用いた500の批判的思考エッセイのケーススタディでは,CAELFが対話的フィードバックを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-09-11T17:59:01Z) - Self-Reflection Makes Large Language Models Safer, Less Biased, and Ideologically Neutral [1.472830326343432]
自己回帰はより安全になり(毒性のないものは97.8%、毒性のないものは75.8%)、バイアスの少ない(77%、偏りのないものは94.3%)、イデオロギー的に中立な反応(党派寄りの反応は100%、非党派的な反応は87.7%)であることが示される。
本稿は,大規模言語モデルの展開における本研究の意義について論じる。
論文 参考訳(メタデータ) (2024-06-14T20:07:11Z) - When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models [15.781930031346105]
自己回帰はTrthfulQAのパフォーマンスを高めるが、HotpotQAの結果に悪影響を及ぼす。
自己回帰は、モデルが最初は正しくない可能性が低く、全体的な疑問の難しさが高い場合に最も有益であることが分かる。
そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-14T02:47:32Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning
from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。
報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。
本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-08T15:14:39Z) - Improving Factual Consistency Between a Response and Persona Facts [64.30785349238619]
応答生成のためのニューラルネットワークは、意味論的に妥当であるが、必ずしも話者のペルソナを記述する事実と矛盾しない応答を生成する。
我々は,これらのモデルを強化学習により微調整し,応答とペルソナ事実の一貫性と意味的妥当性を明確に把握する効率的な報酬関数を提案する。
論文 参考訳(メタデータ) (2020-04-30T18:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。