Fugu-MT 論文翻訳(概要): Uncovering Biases with Reflective Large Language Models

論文の概要: Uncovering Biases with Reflective Large Language Models

arxiv url: http://arxiv.org/abs/2408.13464v2
Date: Thu, 24 Oct 2024 07:09:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 05:15:13.554310
Title: Uncovering Biases with Reflective Large Language Models
Title（参考訳）: 反射型大言語モデルによるバイアスの発見
Authors: Edward Y. Chang,
Abstract要約: 人間のラベル付きデータのバイアスとエラーは、機械学習にとって重要な課題である。本稿では,多種多様な視点を明らかにするために,構造化逆対話を利用した反射型LLM対話フレームワーク RLDF を提案する。実験の結果、RDDFは人間のラベル付きデータの制限を露呈しながら、公開コンテンツの潜在的なバイアスを特定することに成功した。
参考スコア（独自算出の注目度）: 2.5200794639628032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Biases and errors in human-labeled data present significant challenges for machine learning, especially in supervised learning reliant on potentially flawed ground truth data. These flaws, including diagnostic errors and societal biases, risk being propagated and amplified through models trained using maximum likelihood estimation. We present the Reflective LLM Dialogue Framework RLDF, which leverages structured adversarial dialogues between multiple instances of a single LLM or different LLMs to uncover diverse perspectives and correct inconsistencies. By conditioning LLMs to adopt opposing stances, RLDF enables systematic bias detection through conditional statistics, information theory, and divergence metrics. Experiments show RLDF successfully identifies potential biases in public content while exposing limitations in human-labeled data. Our framework supports measurable progress tracking and explainable remediation actions, offering a scalable approach for improving content neutrality through transparent, multi-perspective analysis.
Abstract（参考訳）: 人間のラベル付きデータのバイアスとエラーは、マシンラーニング、特に潜在的に欠陥のある地上真実データに依存する教師付き学習において重要な課題を示す。診断エラーや社会的バイアスを含むこれらの欠陥は、最大推定値を用いて訓練されたモデルを通じて伝播され、増幅される。本稿では,LLMと異なるLLMの複数インスタンス間の構造的対角対話を利用して,多様な視点と不整合を解明する反射型LLM対話フレームワークRTDFを提案する。 LLMを反対のスタンスを採用するよう条件付けすることで、RLDFは条件付き統計、情報理論、分散メトリクスを通じて体系的なバイアス検出を可能にする。実験の結果、RDDFは人間のラベル付きデータの制限を露呈しながら、公開コンテンツの潜在的なバイアスを特定することに成功した。我々のフレームワークは、透明で多視点分析によるコンテンツ中立性向上のためのスケーラブルなアプローチとして、測定可能な進捗追跡と説明可能な修復行動をサポートします。

関連論文リスト

Investigating the Effects of Cognitive Biases in Prompts on Large Language Model Outputs [3.7302076138352205]
本稿では,認知バイアスがLarge Language Models(LLM)出力に及ぼす影響について検討する。確認や可用性バイアスなどの認知バイアスは、プロンプトを通じてユーザーの入力を歪ませる。
論文参考訳（メタデータ） (2025-06-14T04:18:34Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文参考訳（メタデータ） (2025-05-22T01:59:54Z)
Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文参考訳（メタデータ） (2025-04-04T21:04:14Z)
No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。 LLMは様々なタスクにおける最先端のパフォーマンスを破っているが、トレーニングデータに存在する様々な形式のバイアスを反映していることが多い。物理特性から社会経済的カテゴリに至るまで,様々なバイアスをカバーできる代表的LCMを用いて,ベンチマークを統一的に評価する。
論文参考訳（メタデータ） (2025-03-15T03:58:14Z)
VilBias: A Study of Bias Detection through Linguistic and Visual Cues , presenting Annotation Strategies, Evaluation, and Key Challenges [2.2751168722976587]
VLBiasは、最先端のLarge Language Models(LLM)とVision-Language Models(VLM)を活用して、ニュースコンテンツの言語的および視覚的バイアスを検出するフレームワークである。本稿では,多様なニュースソースからのテキストコンテンツと対応する画像からなるマルチモーダルデータセットを提案する。
論文参考訳（メタデータ） (2024-12-22T15:05:30Z)
A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。 LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文参考訳（メタデータ） (2024-09-20T20:24:50Z)
Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。 LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文参考訳（メタデータ） (2024-08-20T23:54:26Z)
Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文参考訳（メタデータ） (2024-08-13T02:08:32Z)
CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。 LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文参考訳（メタデータ） (2024-07-02T16:31:37Z)
RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。 GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文参考訳（メタデータ） (2024-06-16T17:26:44Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
On the Out-Of-Distribution Generalization of Multimodal Large Language Models [24.431960338495184]
MLLM(Multimodal Large Language Models)の一般化境界について検討する。我々は、合成画像、実世界の分布シフト、医療画像や分子画像などの特殊なデータセットにまたがるゼロショットの一般化を評価した。テキスト内学習はMLLMの一般化を著しく向上させ,一般化障壁を克服するための新たな道を開くことができることを示す。
論文参考訳（メタデータ） (2024-02-09T18:21:51Z)
Large Language Model (LLM) Bias Index -- LLMBI [0.0]
LLMBI(Large Language Model Bias Index)は、大規模言語モデル(LLM)に固有のバイアスを定量化し、対処するための先駆的なアプローチである。年齢,性別,人種的偏見に限らず,多次元の偏見を取り入れた複合スコアリングシステムを用いたLLMBIの定式化を行った。 OpenAIのAPIからの応答を用いた実証分析では,バイアス検出の代表的な方法として,高度な感情分析を採用している。
論文参考訳（メタデータ） (2023-12-22T15:38:13Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。