Fugu-MT 論文翻訳(概要): Deceiving to Enlighten: Coaxing LLMs to Self-Reflection for Enhanced Bias Detection and Mitigation

論文の概要: Deceiving to Enlighten: Coaxing LLMs to Self-Reflection for Enhanced Bias Detection and Mitigation

arxiv url: http://arxiv.org/abs/2404.10160v1
Date: Mon, 15 Apr 2024 22:18:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:41:41.616321
Title: Deceiving to Enlighten: Coaxing LLMs to Self-Reflection for Enhanced Bias Detection and Mitigation
Title（参考訳）: 悟りの喪失:LLMを自己反射にコアックスしてバイアス検出と緩和を促進
Authors: Ruoxi Cheng, Haoxuan Ma, Shuirong Cao,
Abstract要約: 大規模な言語モデルにはバイアスやステレオタイプが組み込まれており、有害なユーザエクスペリエンスや社会的結果につながる可能性がある。本稿では,LLMに自己回帰とバイアス認識のメカニズムを持たせることの重要性を強調した。我々の実験は、LLMに、生成されたコンテンツが自身の見解を表現していないことを伝え、バイアスについて質問することで、バイアスを特定し、対処する能力が向上することを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) embed complex biases and stereotypes that can lead to detrimental user experiences and societal consequences, often without conscious awareness from the models themselves. This paper emphasizes the importance of equipping LLMs with mechanisms for better self-reflection and bias recognition. Our experiments demonstrate that by informing LLMs that their generated content does not represent their own views and questioning them about bias, their capability to identify and address biases improves. This enhancement is attributed to the internal attention mechanisms and potential internal sensitivity policies of LLMs. Building upon these findings, we propose a novel method to diminish bias in LLM outputs. This involves engaging LLMs in multi-role scenarios acting as different roles where they are tasked for bias exposure, with a role of an impartial referee in the end of each loop of debate. A ranking scoring mechanism is employed to quantify bias levels, enabling more refined reflections and superior output quality. Comparative experimental results confirm that our method outperforms existing approaches in reducing bias, making it a valuable contribution to efforts towards more ethical AI systems.
Abstract（参考訳）: 大規模言語モデル(LLM)には複雑なバイアスとステレオタイプが組み込まれており、しばしばモデル自体から意識的に意識されることなく、有害なユーザエクスペリエンスや社会的結果をもたらす可能性がある。本稿では,LLMに自己回帰とバイアス認識のメカニズムを持たせることの重要性を強調した。我々の実験は、LLMに、生成されたコンテンツが自身の見解を表現していないことを伝え、バイアスについて質問することで、バイアスを特定し、対処する能力が向上することを示した。この増強は、LPMの内部の注意機構と潜在的内部感度ポリシーに起因する。これらの知見に基づいて, LLM出力のバイアスを低減させる新しい手法を提案する。これには、複数のロールシナリオにおけるLCMの関与が、それぞれの議論のループの終わりに公平な審判の役割を持つバイアス露光のタスクを行う、異なる役割として機能する。ランキングスコア機構を用いてバイアスレベルを定量化し、より洗練された反射と優れた出力品質を実現する。比較実験の結果,本手法はバイアス低減の既存手法よりも優れており,より倫理的なAIシステムへの取り組みに有益であることが明らかとなった。

関連論文リスト

DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文参考訳（メタデータ） (2025-05-15T06:53:37Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
The Alternative Annotator Test for LLM-as-a-Judge: How to Statistically Justify Replacing Human Annotators with LLMs [21.97227334180969]
LLM-as-a-judge"パラダイムでは、人間が伝統的に行ってきたタスクにおいて、アノテータや評価役としてLarge Language Modelsを採用している。研究結果や洞察を形成する上での役割にもかかわらず、LLMがヒトのアノテーターを置き換えることができるかどうかを判断するための標準的あるいは厳格な手順は存在しない。 LLMアノテーションの使用を正当化するためには、アノテーション付き例の控えめなサブセットだけを必要とする新しい統計手順である代替アノテーションテスト(alt-test)を提案する。
論文参考訳（メタデータ） (2025-01-19T07:09:11Z)
Benchmarking Bias in Large Language Models during Role-Playing [21.28427555283642]
ロールプレイングにおいて,Large Language Models (LLMs) のバイアスを明らかにするために設計されたフェアネステストフレームワークであるBiasLensを紹介した。提案手法では,11の属性からなる包括的属性からなる550個のソーシャルロールをLCMを用いて生成し,33,000個のロール固有の質問を生成する。生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。我々のベンチマークでは、LLM全体で72,716の偏りが見られ、個々のモデルは7,754から16,963の偏りが生じる。
論文参考訳（メタデータ） (2024-11-01T13:47:00Z)
A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。 LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T20:24:50Z)
Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [14.906150451947443]
大規模言語モデル(LLM)における潜在的なバイアスを軽減するために,評価者を支援するため,多発性ICLプロンプトを2つ検討した。設計したプロンプトに基づいて,テキスト内サンプルのスケーリングが評価結果の一貫性と品質に与える影響について検討する。 GPT-4oのような高度なLCMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
論文参考訳（メタデータ） (2024-06-17T15:11:58Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
Verbosity Bias in Preference Labeling by Large Language Models [10.242500241407466]
大規模言語モデル(LLM)の評価に伴うバイアスについて検討する。冗長性バイアス( verbosity bias) -- LLM では,たとえ同じような品質を持つとしても,より冗長な回答を好む場合があります。
論文参考訳（メタデータ） (2023-10-16T05:19:02Z)
A Survey on Fairness in Large Language Models [28.05516809190299]
大規模言語モデル(LLM)は、強力なパフォーマンスと開発見通しを示している。 LLMは、未処理のトレーニングデータから社会的バイアスをキャプチャし、そのバイアスを下流のタスクに伝達する。不公平なLLMシステムは、望ましくない社会的影響と潜在的な害がある。
論文参考訳（メタデータ） (2023-08-20T03:30:22Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。