論文の概要: Source framing triggers systematic evaluation bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.13488v1
- Date: Wed, 14 May 2025 07:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.266018
- Title: Source framing triggers systematic evaluation bias in Large Language Models
- Title(参考訳): 音源フレーミングは大規模言語モデルにおける体系的評価バイアスを引き起こす
- Authors: Federico Germani, Giovanni Spitale,
- Abstract要約: 本研究は、4つの最先端大規模言語モデル(LLM)におけるモデル間およびモデル内合意を体系的に検討する。
盲目状態では、異なるLLMがトピック間でのモデル間およびモデル間合意を著しく高めていることが分かる。
その結果, フレーミング効果はテキスト評価に深く影響し, LLMによる情報システムの完全性, 中立性, 公平性に重要な影響を及ぼすことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used not only to generate text but also to evaluate it, raising urgent questions about whether their judgments are consistent, unbiased, and robust to framing effects. In this study, we systematically examine inter- and intra-model agreement across four state-of-the-art LLMs (OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2, and Mistral) tasked with evaluating 4,800 narrative statements on 24 different topics of social, political, and public health relevance, for a total of 192,000 assessments. We manipulate the disclosed source of each statement to assess how attribution to either another LLM or a human author of specified nationality affects evaluation outcomes. We find that, in the blind condition, different LLMs display a remarkably high degree of inter- and intra-model agreement across topics. However, this alignment breaks down when source framing is introduced. Here we show that attributing statements to Chinese individuals systematically lowers agreement scores across all models, and in particular for Deepseek Reasoner. Our findings reveal that framing effects can deeply affect text evaluation, with significant implications for the integrity, neutrality, and fairness of LLM-mediated information systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、テキストを生成するだけでなく、それを評価するためにもますます使われており、彼らの判断が一貫性があり、バイアスがなく、フレーミング効果に頑健であるかどうかという緊急の疑問が提起されている。
本研究では, 社会, 政治, 公衆衛生に関する24の話題について4,800件の物語文を, 合計192,000件のアセスメントで評価することを目的とした, 最先端の4つのLCM(OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2, Mistral)におけるモデル間合意とモデル間合意を体系的に検討した。
我々は、各声明の公開元を操作して、他のLCMまたは特定国籍の人間著者への帰属が評価結果にどのように影響するかを評価する。
盲目状態では、異なるLLMがトピック間でのモデル間およびモデル間合意を著しく高めていることが分かる。
しかし、このアライメントはソースフレーミングが導入されると壊れる。
ここでは、中国の個人に対する声明の帰属が、すべてのモデル、特にDeepseek Reasonerに対する合意のスコアを体系的に低くすることを示す。
その結果, フレーミング効果はテキスト評価に深く影響し, LLMによる情報システムの完全性, 中立性, 公平性に重要な影響を及ぼすことが明らかとなった。
関連論文リスト
- Decoding AI Judgment: How LLMs Assess News Credibility and Bias [0.0]
大規模言語モデル(LLM)は、ニュースの信頼性を評価するためにますます使われているが、これらの判断の仕方についてはほとんど分かっていない。
本研究では、構造化された専門家主導のレーティングシステムに対して、最先端のLCMの信頼性と政治的分類をベンチマークする。
キーワード頻度, 文脈決定要因, ランク分布を調べることで, LLMが特定の言語特徴と信頼性をどのように関連付けるかを明らかにする。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。