論文の概要: Decoding News Narratives: A Critical Analysis of Large Language Models
in Framing Bias Detection
- arxiv url: http://arxiv.org/abs/2402.11621v2
- Date: Fri, 23 Feb 2024 15:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:08:41.605257
- Title: Decoding News Narratives: A Critical Analysis of Large Language Models
in Framing Bias Detection
- Title(参考訳): Decoding News Narratives: Framing Bias Detectionにおける大規模言語モデルの批判的分析
- Authors: Valeria Pastorino, Jasivan A. Sivakumar, Nafise Sadat Moosavi
- Abstract要約: GPT-3.5 Turbo、GPT-4、Flan-T5モデルは、ゼロショット、少数ショット、説明可能なプロンプト手法によってニュース見出しのフレーミングバイアスを検出する。
特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上することを示した。
FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスを識別するために追加のタスク固有の微調整が必要になることを示している。
- 参考スコア(独自算出の注目度): 11.578398987157925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work contributes to the expanding research on the applicability of LLMs
in social sciences by examining the performance of GPT-3.5 Turbo, GPT-4, and
Flan-T5 models in detecting framing bias in news headlines through zero-shot,
few-shot, and explainable prompting methods. A key insight from our evaluation
is the notable efficacy of explainable prompting in enhancing the reliability
of these models, highlighting the importance of explainable settings for social
science research on framing bias. GPT-4, in particular, demonstrated enhanced
performance in few-shot scenarios when presented with a range of relevant,
in-domain examples. FLAN-T5's poor performance indicates that smaller models
may require additional task-specific fine-tuning for identifying framing bias
detection. Our study also found that models, particularly GPT-4, often
misinterpret emotional language as an indicator of framing bias, underscoring
the challenge of distinguishing between reporting genuine emotional expression
and intentionally use framing bias in news headlines. We further evaluated the
models on two subsets of headlines where the presence or absence of framing
bias was either clear-cut or more contested, with the results suggesting that
these models' can be useful in flagging potential annotation inaccuracies
within existing or new datasets. Finally, the study evaluates the models in
real-world conditions ("in the wild"), moving beyond the initial dataset
focused on U.S. Gun Violence, assessing the models' performance on framed
headlines covering a broad range of topics.
- Abstract(参考訳): 本研究は,GPT-3.5 Turbo, GPT-4, Flan-T5モデルを用いて,ゼロショット, 少数ショット, 説明可能なプロンプト手法によるニュース見出しのフレーミングバイアスを検出することにより, 社会科学におけるLCMの適用性の向上に寄与する。
評価から得られた重要な知見は、これらのモデルの信頼性を高めるための説明可能な効果が顕著であり、フレーミングバイアスに関する社会科学研究における説明可能な設定の重要性を強調している。
特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上した。
FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスの検出にタスク固有の微調整が必要になることを示している。
また、モデル、特にgpt-4は、しばしば感情言語をフレーミングバイアスの指標として誤解し、真の感情表現を報告することと、意図的にニュース見出しでフレーミングバイアスを使用することを区別することの難しさを強調している。
さらに,フレーミングバイアスの有無が明確か,あるいはより議論された見出しの2つの部分集合について評価を行い,既存のデータセットや新しいデータセット内の潜在的なアノテーション不正確性をフラグ付けする上で,これらのモデルが有効であることを示唆した。
最後に、この研究は、実際の状況(野における)におけるモデルを評価し、米国銃暴力に焦点を当てた最初のデータセットを超えて、幅広いトピックをカバーするフレーム付き見出しでモデルのパフォーマンスを評価する。
関連論文リスト
- Revisiting Zero-Shot Abstractive Summarization in the Era of Large Language Models from the Perspective of Position Bias [13.828653029379257]
位置バイアスを測定することにより,Large Language Models (LLMs) におけるゼロショット抽象要約を特徴付ける。
位置バイアスは入力テキストの特定の部分からの情報を不当に優先するモデルの傾向を捉え、望ましくない振る舞いをもたらす。
その結果,ゼロショット要約タスクにおけるモデルの性能と位置バイアスに関する新たな洞察と議論につながった。
論文 参考訳(メタデータ) (2024-01-03T21:38:40Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable
Evaluation of Large Language Model Generation [89.79296467204733]
我々は、CrytiqueLLMと呼ばれる新しい批評生成モデルを提案する。
実験結果から,GPT-4に匹敵する評価性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。
予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2023-09-11T14:43:54Z) - FairMonitor: A Four-Stage Automatic Framework for Detecting Stereotypes
and Biases in Large Language Models [10.57405233305553]
本稿では,Large Language Models(LLMs)の生成したコンテンツのステレオタイプとバイアスを直接評価する4段階フレームワークを提案する。
教育部門を事例研究として,4段階の枠組みに基づくEdu-FairMonitorを構築した。
実験結果から,Edu-FairMonitorで評価された5つのLDMのステレオタイプとバイアスの程度が異なっていた。
論文 参考訳(メタデータ) (2023-08-21T00:25:17Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Sensitivity and Robustness of Large Language Models to Prompt Template
in Japanese Text Classification Tasks [0.0]
重要な問題は、Promptテンプレートに対する大きな言語モデルの不適切な感度と堅牢性である。
本稿では,複数の代表言語モデル (LLM) と広く活用されている事前学習モデル (PLM) の包括的評価を通じて,この問題を考察する。
Promptテンプレートの文構造の変更により, GPT-4の精度は49.21から25.44に大幅に低下した。
論文 参考訳(メタデータ) (2023-05-15T15:19:08Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。