Fugu-MT 論文翻訳(概要): Evaluating Nuanced Bias in Large Language Model Free Response Answers

論文の概要: Evaluating Nuanced Bias in Large Language Model Free Response Answers

arxiv url: http://arxiv.org/abs/2407.08842v1
Date: Thu, 11 Jul 2024 19:58:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 01:36:13.469938
Title: Evaluating Nuanced Bias in Large Language Model Free Response Answers
Title（参考訳）: 大規模言語モデル自由応答回答におけるニュアンスバイアスの評価
Authors: Jennifer Healey, Laurie Byrum, Md Nadeem Akhtar, Moumita Sinha,
Abstract要約: 複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
参考スコア（独自算出の注目度）: 8.775925011558995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained large language models (LLMs) can now be easily adapted for specific business purposes using custom prompts or fine tuning. These customizations are often iteratively re-engineered to improve some aspect of performance, but after each change businesses want to ensure that there has been no negative impact on the system's behavior around such critical issues as bias. Prior methods of benchmarking bias use techniques such as word masking and multiple choice questions to assess bias at scale, but these do not capture all of the nuanced types of bias that can occur in free response answers, the types of answers typically generated by LLM systems. In this paper, we identify several kinds of nuanced bias in free text that cannot be similarly identified by multiple choice tests. We describe these as: confidence bias, implied bias, inclusion bias and erasure bias. We present a semi-automated pipeline for detecting these types of bias by first eliminating answers that can be automatically classified as unbiased and then co-evaluating name reversed pairs using crowd workers. We believe that the nuanced classifications our method generates can be used to give better feedback to LLMs, especially as LLM reasoning capabilities become more advanced.
Abstract（参考訳）: 事前訓練された大規模言語モデル(LLM)は、カスタムプロンプトや微調整を使用して、特定のビジネス目的に容易に適用できるようになった。これらのカスタマイズは、パフォーマンスのいくつかの側面を改善するために反復的に再設計されることが多いが、各変更後のビジネスは、バイアスのような重要な問題に関するシステムの振る舞いに否定的な影響がないことを保証したい。単語マスキング(英語版)や複数の選択質問(英語版)などのバイアスの手法をベンチマークする以前の手法では、大規模にバイアスを評価できたが、これらは自由応答の答えで起こりうるすべてのニュアンスなバイアスを捉えておらず、通常、LLMシステムによって生成される答えのタイプである。本稿では,複数選択テストでは同様に識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。信頼バイアス、暗黙のバイアス、包摂バイアス、消去バイアス。本稿では、まず、偏見のない回答を自動的に分類し、その後、群衆労働者を用いて名前の逆のペアを共同評価することで、これらのバイアスを検出する半自動パイプラインを提案する。我々の手法が生み出すニュアンスド分類は、特にLSM推論能力が向上するにつれて、LSMにより良いフィードバックを与えるのに利用できると信じている。

関連論文リスト

Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。本稿では,LLMの信頼性を高める自己脱バイアスという認知的脱バイアス手法を提案する。我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文参考訳（メタデータ） (2025-04-05T11:23:05Z)
Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文参考訳（メタデータ） (2025-03-12T10:06:03Z)
Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.34646723046073]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文参考訳（メタデータ） (2024-10-18T07:52:22Z)
Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文参考訳（メタデータ） (2024-10-13T03:43:18Z)
Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル (LLM) は、複数の質問に応答するときに、特定の選択オプションに対して不当な好みを示すことが多い。以前のソリューションでは、モデルの入力と/または出力を調整するためにデバイアス法を使用していた。対照的に、我々の研究は選択バイアスのモデルの内部表現を調査している。
論文参考訳（メタデータ） (2024-09-27T15:53:54Z)
The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文参考訳（メタデータ） (2024-07-01T13:21:33Z)
Going Beyond Popularity and Positivity Bias: Correcting for Multifactorial Bias in Recommender Systems [74.47680026838128]
ユーザインタラクションデータとレコメンダシステム(RS)の2つの典型的なバイアスは、人気バイアスと肯定バイアスである。項目と評価値の双方に影響される多因子選択バイアスについて検討する。分散を低減し、最適化の堅牢性を向上させるため、スムースで交互に勾配降下する手法を提案する。
論文参考訳（メタデータ） (2024-04-29T12:18:21Z)
Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文参考訳（メタデータ） (2024-03-15T02:04:35Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文参考訳（メタデータ） (2023-10-13T00:49:09Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)
ADEPT: A DEbiasing PrompT Framework [49.582497203415855]
ファインタニングは文脈化された単語の埋め込みを曖昧にするための応用手法である。意味的な意味を持つ個別のプロンプトは、タスクを乱すのに有効であることが示されている。本稿では, PLM をデバイアス化する方法であるADEPT を提案し, バイアス除去と表現能力の確保の微妙なバランスを維持しながら, 即時チューニングによる PLM のデバイアス化手法を提案する。
論文参考訳（メタデータ） (2022-11-10T08:41:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。