論文の概要: IssueBench: Millions of Realistic Prompts for Measuring Issue Bias in LLM Writing Assistance
- arxiv url: http://arxiv.org/abs/2502.08395v1
- Date: Wed, 12 Feb 2025 13:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:44.256254
- Title: IssueBench: Millions of Realistic Prompts for Measuring Issue Bias in LLM Writing Assistance
- Title(参考訳): 課題ベンチ: LLM筆記支援における課題バイアス測定のための現実主義的プロンプト
- Authors: Paul Röttger, Musashi Hinck, Valentin Hofmann, Kobi Hackenburg, Valentina Pyatkin, Faeze Brahman, Dirk Hovy,
- Abstract要約: IssueBenchは、大きな言語モデルにおける問題バイアスを測定するための2.49mの現実的なプロンプトのセットである。
現状のLLMでは問題バイアスが一般的で永続的であることを示す。
あらゆるモデルは、一部の問題に関して共和党の有権者の意見よりも、民主党の意見と一致している。
- 参考スコア(独自算出の注目度): 30.25793801015166
- License:
- Abstract: Large language models (LLMs) are helping millions of users write texts about diverse issues, and in doing so expose users to different ideas and perspectives. This creates concerns about issue bias, where an LLM tends to present just one perspective on a given issue, which in turn may influence how users think about this issue. So far, it has not been possible to measure which issue biases LLMs actually manifest in real user interactions, making it difficult to address the risks from biased LLMs. Therefore, we create IssueBench: a set of 2.49m realistic prompts for measuring issue bias in LLM writing assistance, which we construct based on 3.9k templates (e.g. "write a blog about") and 212 political issues (e.g. "AI regulation") from real user interactions. Using IssueBench, we show that issue biases are common and persistent in state-of-the-art LLMs. We also show that biases are remarkably similar across models, and that all models align more with US Democrat than Republican voter opinion on a subset of issues. IssueBench can easily be adapted to include other issues, templates, or tasks. By enabling robust and realistic measurement, we hope that IssueBench can bring a new quality of evidence to ongoing discussions about LLM biases and how to address them.
- Abstract(参考訳): 大規模言語モデル(LLM)は、何百万人ものユーザがさまざまな問題に関するテキストを書くのを助けている。
これは問題バイアスに関する懸念を生じさせ、LLMは与えられた問題に対して1つの視点しか示さない傾向にあり、その結果、ユーザがこの問題についてどう考えるかに影響を与える可能性がある。
これまでのところ、LLMが実際のユーザインタラクションで実際に現れるバイアスを計測することは不可能であり、偏りのあるLLMのリスクに対処することは困難である。
そこで我々は, LLM書き込み支援における課題バイアスを測定するための2.49mの現実的なプロンプトセットである IssueBench を作成し, 実際のユーザインタラクションから3.9kテンプレート(例:ブログを書いている)と212の政治問題(例:AI規制)に基づいて構築する。
IssueBenchを用いて、現状のLLMでは問題バイアスが一般的で永続的であることを示す。
また、モデル間でバイアスは著しく類似しており、すべてのモデルが、問題の一部に関する共和党の有権者の意見よりも、アメリカの民主党と一致していることも示しています。
IssueBenchは簡単に他のイシュー、テンプレート、タスクを含めることができる。
堅牢で現実的な測定を可能にすることで、IssueBenchはLSMバイアスとそれに対応する方法に関する議論に、新たな証拠の質をもたらすことを期待する。
関連論文リスト
- Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - What does AI consider praiseworthy? [0.0]
我々は,大規模言語モデルのユーザの意図に対する応答を分析する。
私たちは、さまざまな倫理的行動のモデル間で強い整合性を見いだしています。
AIシステムが社会に統合されるにつれて、彼らの賞賛、批判、中立性の使用は注意深く監視されなければならない。
論文 参考訳(メタデータ) (2024-11-27T15:46:54Z) - Benchmarking Bias in Large Language Models during Role-Playing [21.28427555283642]
ロールプレイングにおいて,Large Language Models (LLMs) のバイアスを明らかにするために設計されたフェアネステストフレームワークであるBiasLensを紹介した。
提案手法では,11の属性からなる包括的属性からなる550個のソーシャルロールをLCMを用いて生成し,33,000個のロール固有の質問を生成する。
生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。
我々のベンチマークでは、LLM全体で72,716の偏りが見られ、個々のモデルは7,754から16,963の偏りが生じる。
論文 参考訳(メタデータ) (2024-11-01T13:47:00Z) - Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Bias in LLMs as Annotators: The Effect of Party Cues on Labelling Decision by Large Language Models [0.0]
我々は、Large Language Models (LLMs) において同様のバイアスをアノテーションとしてテストする。
人間とは違い、極端に左派や右派からの発言を誘発しても、LSMは顕著な偏見を呈する。
論文 参考訳(メタデータ) (2024-08-28T16:05:20Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
本稿では,従来のRLHFのフィードバックに取って代わるバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
強化学習における報酬モデルのトレーニングに,高バイアスと低バイアスの両方のインスタンスを含むデータセットを作成するために,LLMをマルチロール討論に活用する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。