Fugu-MT 論文翻訳(概要): Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Bias Detection

論文の概要: Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Bias Detection

arxiv url: http://arxiv.org/abs/2402.11621v2
Date: Fri, 23 Feb 2024 15:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 17:08:41.605257
Title: Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Bias Detection
Title（参考訳）: Decoding News Narratives: Framing Bias Detectionにおける大規模言語モデルの批判的分析
Authors: Valeria Pastorino, Jasivan A. Sivakumar, Nafise Sadat Moosavi
Abstract要約: GPT-3.5 Turbo、GPT-4、Flan-T5モデルは、ゼロショット、少数ショット、説明可能なプロンプト手法によってニュース見出しのフレーミングバイアスを検出する。特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上することを示した。 FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスを識別するために追加のタスク固有の微調整が必要になることを示している。
参考スコア（独自算出の注目度）: 11.578398987157925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work contributes to the expanding research on the applicability of LLMs in social sciences by examining the performance of GPT-3.5 Turbo, GPT-4, and Flan-T5 models in detecting framing bias in news headlines through zero-shot, few-shot, and explainable prompting methods. A key insight from our evaluation is the notable efficacy of explainable prompting in enhancing the reliability of these models, highlighting the importance of explainable settings for social science research on framing bias. GPT-4, in particular, demonstrated enhanced performance in few-shot scenarios when presented with a range of relevant, in-domain examples. FLAN-T5's poor performance indicates that smaller models may require additional task-specific fine-tuning for identifying framing bias detection. Our study also found that models, particularly GPT-4, often misinterpret emotional language as an indicator of framing bias, underscoring the challenge of distinguishing between reporting genuine emotional expression and intentionally use framing bias in news headlines. We further evaluated the models on two subsets of headlines where the presence or absence of framing bias was either clear-cut or more contested, with the results suggesting that these models' can be useful in flagging potential annotation inaccuracies within existing or new datasets. Finally, the study evaluates the models in real-world conditions ("in the wild"), moving beyond the initial dataset focused on U.S. Gun Violence, assessing the models' performance on framed headlines covering a broad range of topics.
Abstract（参考訳）: 本研究は,GPT-3.5 Turbo, GPT-4, Flan-T5モデルを用いて,ゼロショット, 少数ショット, 説明可能なプロンプト手法によるニュース見出しのフレーミングバイアスを検出することにより, 社会科学におけるLCMの適用性の向上に寄与する。評価から得られた重要な知見は、これらのモデルの信頼性を高めるための説明可能な効果が顕著であり、フレーミングバイアスに関する社会科学研究における説明可能な設定の重要性を強調している。特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上した。 FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスの検出にタスク固有の微調整が必要になることを示している。また、モデル、特にgpt-4は、しばしば感情言語をフレーミングバイアスの指標として誤解し、真の感情表現を報告することと、意図的にニュース見出しでフレーミングバイアスを使用することを区別することの難しさを強調している。さらに,フレーミングバイアスの有無が明確か,あるいはより議論された見出しの2つの部分集合について評価を行い,既存のデータセットや新しいデータセット内の潜在的なアノテーション不正確性をフラグ付けする上で,これらのモデルが有効であることを示唆した。最後に、この研究は、実際の状況(野における)におけるモデルを評価し、米国銃暴力に焦点を当てた最初のデータセットを超えて、幅広いトピックをカバーするフレーム付き見出しでモデルのパフォーマンスを評価する。

関連論文リスト

Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions [35.48753431700434]
テキストのみのパフォーマンス予測について検討し、タスク記述と意図した構成からモデルのスコアを推定する。系統的な研究を支援するため,多種多様なタスク,ドメイン,メトリクスにまたがる記述性能対のコーパスであるPreCOGをキュレートする。実験では、タスクは困難だが実現可能であり、高い信頼しきい値の精度サブセットで平均8.7の絶対誤差に達する。
論文参考訳（メタデータ） (2025-09-25T01:02:27Z)
Analyzing the Role of Context in Forecasting with Large Language Models [17.021220773165016]
まず,600以上のバイナリ予測質問のデータセットを導入し,関連するニュース記事とその簡潔な質問関連要約を付加した。次に,入力プロンプトが予測性能に与える影響について検討する。その結果,ニュース記事の導入により性能が著しく向上し,撮影例が少ないと精度が低下することが示唆された。
論文参考訳（メタデータ） (2025-01-11T10:11:19Z)
Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。 6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文参考訳（メタデータ） (2024-10-25T09:15:54Z)
Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文参考訳（メタデータ） (2023-09-11T14:43:54Z)
A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文参考訳（メタデータ） (2023-07-25T17:02:38Z)
Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文参考訳（メタデータ） (2022-09-29T19:26:23Z)
Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文参考訳（メタデータ） (2022-04-17T15:55:18Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。一つの例から5つの例への適応が可能であることを示す。本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文参考訳（メタデータ） (2021-03-31T09:05:43Z)
Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。 10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文参考訳（メタデータ） (2020-04-06T14:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。