Fugu-MT 論文翻訳(概要): Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection

論文の概要: Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection

arxiv url: http://arxiv.org/abs/2402.11621v3
Date: Sat, 15 Jun 2024 23:20:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 06:06:06.650966
Title: Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Detection
Title（参考訳）: ニュースナラティブの復号化:フレーム検出における大規模言語モデルの批判的分析
Authors: Valeria Pastorino, Jasivan A. Sivakumar, Nafise Sadat Moosavi,
Abstract要約: 本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。
参考スコア（独自算出の注目度）: 10.301985230669684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous studies on framing have relied on manual analysis or fine-tuning models with limited annotated datasets. However, pre-trained models, with their diverse training backgrounds, offer a promising alternative. This paper presents a comprehensive analysis of GPT-4, GPT-3.5 Turbo, and FLAN-T5 models in detecting framing in news headlines. We evaluated these models in various scenarios: zero-shot, few-shot with in-domain examples, cross-domain examples, and settings where models explain their predictions. Our results show that explainable predictions lead to more reliable outcomes. GPT-4 performed exceptionally well in few-shot settings but often misinterpreted emotional language as framing, highlighting a significant challenge. Additionally, the results suggest that consistent predictions across multiple models could help identify potential annotation inaccuracies in datasets. Finally, we propose a new small dataset for real-world evaluation on headlines from a diverse set of topics.
Abstract（参考訳）: フレーミングに関するこれまでの研究は、注釈付きデータセットが限られた手動分析や微調整モデルに依存していた。しかし、訓練済みのモデルは、さまざまなトレーニングの背景を持つため、有望な代替手段を提供する。本稿では,ニュース見出しにおけるフレーミングの検出において,GPT-4,GPT-3.5 Turbo,FLAN-T5モデルを包括的に分析する。我々はこれらのモデルを,ゼロショット,ドメイン内例による少数ショット,クロスドメイン例,モデルが予測を説明する設定など,さまざまなシナリオで評価した。以上の結果から,説明可能な予測がより信頼性の高い結果をもたらすことが示唆された。 GPT-4は、わずかな設定で非常によく機能したが、しばしば感情的な言語をフレーミングと誤解し、重大な課題を浮き彫りにした。さらに、複数のモデルにまたがる一貫した予測は、データセットの潜在的なアノテーションの不正確さを特定するのに役立つことを示唆している。最後に,多種多様なトピックの見出しから実世界の評価を行うための,新しい小さなデータセットを提案する。

関連論文リスト

Look Before you Leap: Estimating LLM Benchmark Scores from Descriptions [35.48753431700434]
テキストのみのパフォーマンス予測について検討し、タスク記述と意図した構成からモデルのスコアを推定する。系統的な研究を支援するため,多種多様なタスク,ドメイン,メトリクスにまたがる記述性能対のコーパスであるPreCOGをキュレートする。実験では、タスクは困難だが実現可能であり、高い信頼しきい値の精度サブセットで平均8.7の絶対誤差に達する。
論文参考訳（メタデータ） (2025-09-25T01:02:27Z)
Analyzing the Role of Context in Forecasting with Large Language Models [17.021220773165016]
まず,600以上のバイナリ予測質問のデータセットを導入し,関連するニュース記事とその簡潔な質問関連要約を付加した。次に,入力プロンプトが予測性能に与える影響について検討する。その結果,ニュース記事の導入により性能が著しく向上し,撮影例が少ないと精度が低下することが示唆された。
論文参考訳（メタデータ） (2025-01-11T10:11:19Z)
Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。 6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文参考訳（メタデータ） (2024-10-25T09:15:54Z)
Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文参考訳（メタデータ） (2023-09-11T14:43:54Z)
A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文参考訳（メタデータ） (2023-07-25T17:02:38Z)
Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文参考訳（メタデータ） (2022-09-29T19:26:23Z)
Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文参考訳（メタデータ） (2022-04-17T15:55:18Z)
A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-04-11T18:31:53Z)
Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。一つの例から5つの例への適応が可能であることを示す。本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文参考訳（メタデータ） (2021-03-31T09:05:43Z)
Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。 10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文参考訳（メタデータ） (2020-04-06T14:47:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。