論文の概要: Decoding News Narratives: A Critical Analysis of Large Language Models
in Framing Bias Detection
- arxiv url: http://arxiv.org/abs/2402.11621v1
- Date: Sun, 18 Feb 2024 15:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:09:42.702834
- Title: Decoding News Narratives: A Critical Analysis of Large Language Models
in Framing Bias Detection
- Title(参考訳): Decoding News Narratives: Framing Bias Detectionにおける大規模言語モデルの批判的分析
- Authors: Valeria Pastorino, Jasivan A. Sivakumar, Nafise Sadat Moosavi
- Abstract要約: GPT-3.5 Turbo、GPT-4、Flan-T5モデルは、ゼロショット、少数ショット、説明可能なプロンプト手法によってニュース見出しのフレーミングバイアスを検出する。
特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上することを示した。
FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスを識別するために追加のタスク固有の微調整が必要になることを示している。
- 参考スコア(独自算出の注目度): 11.578398987157925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work contributes to the expanding research on the applicability of LLMs
in social sciences by examining the performance of GPT-3.5 Turbo, GPT-4, and
Flan-T5 models in detecting framing bias in news headlines through zero-shot,
few-shot, and explainable prompting methods. A key insight from our evaluation
is the notable efficacy of explainable prompting in enhancing the reliability
of these models, highlighting the importance of explainable settings for social
science research on framing bias. GPT-4, in particular, demonstrated enhanced
performance in few-shot scenarios when presented with a range of relevant,
in-domain examples. FLAN-T5's poor performance indicates that smaller models
may require additional task-specific fine-tuning for identifying framing bias
detection. Our study also found that models, particularly GPT-4, often
misinterpret emotional language as an indicator of framing bias, underscoring
the challenge of distinguishing between reporting genuine emotional expression
and intentionally use framing bias in news headlines. We further evaluated the
models on two subsets of headlines where the presence or absence of framing
bias was either clear-cut or more contested, with the results suggesting that
these models' can be useful in flagging potential annotation inaccuracies
within existing or new datasets. Finally, the study evaluates the models in
real-world conditions ("in the wild"), moving beyond the initial dataset
focused on U.S. Gun Violence, assessing the models' performance on framed
headlines covering a broad range of topics.
- Abstract(参考訳): 本研究は,GPT-3.5 Turbo, GPT-4, Flan-T5モデルを用いて,ゼロショット, 少数ショット, 説明可能なプロンプト手法によるニュース見出しのフレーミングバイアスを検出することにより, 社会科学におけるLCMの適用性の向上に寄与する。
評価から得られた重要な知見は、これらのモデルの信頼性を高めるための説明可能な効果が顕著であり、フレーミングバイアスに関する社会科学研究における説明可能な設定の重要性を強調している。
特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上した。
FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスの検出にタスク固有の微調整が必要になることを示している。
また、モデル、特にgpt-4は、しばしば感情言語をフレーミングバイアスの指標として誤解し、真の感情表現を報告することと、意図的にニュース見出しでフレーミングバイアスを使用することを区別することの難しさを強調している。
さらに,フレーミングバイアスの有無が明確か,あるいはより議論された見出しの2つの部分集合について評価を行い,既存のデータセットや新しいデータセット内の潜在的なアノテーション不正確性をフラグ付けする上で,これらのモデルが有効であることを示唆した。
最後に、この研究は、実際の状況(野における)におけるモデルを評価し、米国銃暴力に焦点を当てた最初のデータセットを超えて、幅広いトピックをカバーするフレーム付き見出しでモデルのパフォーマンスを評価する。
関連論文リスト
- Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。
予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2023-09-11T14:43:54Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。