論文の概要: B-score: Detecting biases in large language models using response history
- arxiv url: http://arxiv.org/abs/2505.18545v1
- Date: Sat, 24 May 2025 06:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.496647
- Title: B-score: Detecting biases in large language models using response history
- Title(参考訳): Bスコア:応答履歴を用いた大規模言語モデルのバイアス検出
- Authors: An Vo, Mohammad Reza Taesiri, Daeyoung Kim, Anh Totti Nguyen,
- Abstract要約: 大きな言語モデル(LLM)は、しばしば強いバイアスを示す。
本研究は,LLMが先行回答を同じ質問に対して観察できる場合,バイアスの少ない回答を出力できるかどうかを考察する。
主観的, ランダム, 易解, 難解な質問に対するバイアスを検出するのに有効な新しい尺度であるBスコアを提案する。
- 参考スコア(独自算出の注目度): 2.944057642865492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often exhibit strong biases, e.g, against women or in favor of the number 7. We investigate whether LLMs would be able to output less biased answers when allowed to observe their prior answers to the same question in a multi-turn conversation. To understand which types of questions invite more biased answers, we test LLMs on our proposed set of questions that span 9 topics and belong to three types: (1) Subjective; (2) Random; and (3) Objective. Interestingly, LLMs are able to "de-bias" themselves in a multi-turn conversation in response to questions that seek an Random, unbiased answer. Furthermore, we propose B-score, a novel metric that is effective in detecting biases to Subjective, Random, Easy, and Hard questions. On MMLU, HLE, and CSQA, leveraging B-score substantially improves the verification accuracy of LLM answers (i.e, accepting LLM correct answers and rejecting incorrect ones) compared to using verbalized confidence scores or the frequency of single-turn answers alone. Code and data are available at: https://b-score.github.io.
- Abstract(参考訳): 大型言語モデル(LLM)は、女性に対する強い偏見や、番号7の支持を示すことが多い。
マルチターン会話において, LLM が先行回答を観測できる場合, バイアスの少ない回答を出力できるかどうかを検討する。
より偏りのある回答をどの質問に誘うかを理解するために,提案した質問セットを用いて,(1)主観的,(2)ランダム,(3)客観的の3種類に分類される質問セットを検証した。
興味深いことに、LLMはランダムで偏見のない答えを求める質問に対して、マルチターン会話で自分自身を"デバイアス"することができる。
さらに,主観的,ランダム,易解,難解な質問に対するバイアスの検出に有効な新しい尺度であるBスコアを提案する。
MMLU, HLE, CSQAでは, 単回回答のみを用いた場合と比較して, Bスコアを用いた場合, LLM回答の検証精度が著しく向上する(LLM正解の受け入れ, 誤解の拒否)。
コードとデータは、https://b-score.github.io.comで入手できる。
関連論文リスト
- Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong [2.8367942280334493]
回答に対する自信は、モデルが直接答えるか、答える前に推論を提供するよう求められたかどうかにどのように依存するかを調査する。
我々の仮説は、この行動は、選択された答えの確率を変更する推論によるものであるというものである。
論文 参考訳(メタデータ) (2025-01-16T10:27:51Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Don't Just Say "I don't know"! Self-aligning Large Language Models for Responding to Unknown Questions with Explanations [70.6395572287422]
自己調整法は,回答を拒否するだけでなく,未知の質問の解答不能を説明できる。
我々は, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。
論文 参考訳(メタデータ) (2024-02-23T02:24:36Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。