論文の概要: A Dataset for Analysing News Framing in Chinese Media
- arxiv url: http://arxiv.org/abs/2503.04439v1
- Date: Thu, 06 Mar 2025 13:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:12.519469
- Title: A Dataset for Analysing News Framing in Chinese Media
- Title(参考訳): 中国メディアにおけるニュースフレイム分析のためのデータセット
- Authors: Owen Cook, Yida Mu, Xinye Yang, Xingyi Song, Kalina Bontcheva,
- Abstract要約: 本研究では、SemEval-2023タスク3データセットにスタンドアロンデータセットまたは補助リソースとして使用される最初の中国語ニュースフレイミングデータセットを紹介する。
このようなデータセットの必要性を強調し、将来の研究のためのベンチマークを作成するために、ベースライン実験を実施しています。
中国語では,F1-micro(SemEval Task 3, subtask 2)スコアが0.719であり,SemEvalデータセットを中国語ニュースフレーミングサンプルで拡張した場合のスコアが0.753である。
- 参考スコア(独自算出の注目度): 0.847791472364259
- License:
- Abstract: Framing is an essential device in news reporting, allowing the writer to influence public perceptions of current affairs. While there are existing automatic news framing detection datasets in various languages, none of them focus on news framing in the Chinese language which has complex character meanings and unique linguistic features. This study introduces the first Chinese News Framing dataset, to be used as either a stand-alone dataset or a supplementary resource to the SemEval-2023 task 3 dataset. We detail its creation and we run baseline experiments to highlight the need for such a dataset and create benchmarks for future research, providing results obtained through fine-tuning XLM-RoBERTa-Base and using GPT-4o in the zero-shot setting. We find that GPT-4o performs significantly worse than fine-tuned XLM-RoBERTa across all languages. For the Chinese language, we obtain an F1-micro (the performance metric for SemEval task 3, subtask 2) score of 0.719 using only samples from our Chinese News Framing dataset and a score of 0.753 when we augment the SemEval dataset with Chinese news framing samples. With positive news frame detection results, this dataset is a valuable resource for detecting news frames in the Chinese language and is a valuable supplement to the SemEval-2023 task 3 dataset.
- Abstract(参考訳): フレイミングはニュース報道において不可欠な装置であり、作家は現在の状況に対する大衆の認識に影響を与えることができる。
様々な言語に既存の自動ニュースフレーミング検出データセットがあるが、いずれも複雑な文字の意味と独特の言語的特徴を持つ中国語のニュースフレーミングに焦点を当てていない。
本研究では、SemEval-2023タスク3データセットにスタンドアロンデータセットまたは補助リソースとして使用される最初の中国語ニュースフレイミングデータセットを紹介する。
このようなデータセットの必要性を強調し、将来の研究のためのベンチマークを作成し、XLM-RoBERTa-Baseを微調整し、ゼロショット設定でGPT-4oを使用した結果を提供する。
GPT-4oは全言語で微調整されたXLM-RoBERTaよりも性能が劣ることがわかった。
中国語では,F1-micro(SemEval Task 3, subtask 2)スコアが0.719であり,SemEvalデータセットを中国語ニュースフレーミングサンプルで拡張した場合のスコアが0.753である。
肯定的なニュースフレーム検出結果により、このデータセットは中国語のニュースフレームを検出するための貴重なリソースであり、SemEval-2023タスク3データセットの貴重なサプリメントである。
関連論文リスト
- Crafting Tomorrow's Headlines: Neural News Generation and Detection in English, Turkish, Hungarian, and Persian [9.267227655791443]
我々は、英語、トルコ語、ハンガリー語、ペルシア語という4つの言語でニューラルニュース検出のために設計されたベンチマークデータセットを紹介した。
このデータセットには、BloomZ、LLaMa-2、Mistral、Mixtral、GPT-4など、複数の多言語ジェネレータ(ゼロショットと微調整の両方)からの出力が含まれている。
本研究は,全言語を対象とした機械生成テキスト検出器の解釈性と頑健性を明らかにすることを目的とした検出結果を提案する。
論文 参考訳(メタデータ) (2024-08-20T10:45:36Z) - CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models [36.82189550072201]
既存のテキスト・ツー・テーブルのデータセットは典型的には英語を指向する。
大規模言語モデル(LLM)は、多言語設定における一般的なタスクソルバとして大きな成功を収めている。
本研究は,中国語のテキスト・ツー・テーブル・データセットであるCT-Evalを用いてLCMのベンチマークを行う。
論文 参考訳(メタデータ) (2024-05-20T16:58:02Z) - Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers [0.20482269513546458]
本稿では、ロシア語科学論文のマルチモーダルデータセットの作成と、自動テキスト要約作業のための既存の言語モデルの試験について論じる。
データセットの特徴は、テキスト、テーブル、フィギュアを含むマルチモーダルデータである。
論文 参考訳(メタデータ) (2024-05-13T16:21:33Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - MegaWika: Millions of reports and their sources across 50 diverse
languages [74.3909725023673]
MegaWikaは、50の言語で1300万のWikipedia記事と、7100万の参考資料で構成されている。
我々は、このデータセットを無数のアプリケーションに処理し、非英語の記事を言語間アプリケーションに翻訳する。
MegaWikaは、文レベルのレポート生成のための最大のリソースであり、マルチランガルである唯一のレポート生成データセットである。
論文 参考訳(メタデータ) (2023-07-13T20:04:02Z) - LLM-powered Data Augmentation for Enhanced Cross-lingual Performance [24.20730298894794]
本稿では,Large Language Models (LLMs) を利用したコモンセンス推論データセットにおけるデータ拡張の可能性について検討する。
これを実現するために、私たちは、XCOPA、XWinograd、XStoryClozeの3つのデータセットを増強するために、Dlly-v2、StableVicuna、ChatGPT、GPT-4といういくつかのLCMを利用する。
合成データを用いて,小型多言語モデルmBERTとXLMRの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:33:27Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。