論文の概要: A New Korean Text Classification Benchmark for Recognizing the Political
Intents in Online Newspapers
- arxiv url: http://arxiv.org/abs/2311.01712v1
- Date: Fri, 3 Nov 2023 04:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:10:53.081779
- Title: A New Korean Text Classification Benchmark for Recognizing the Political
Intents in Online Newspapers
- Title(参考訳): オンライン新聞における政治内容認識のための韓国語テキスト分類ベンチマーク
- Authors: Beomjune Kim, Eunsun Lee, Dongbin Na
- Abstract要約: 本稿では,様々な記事を含む韓国語テキスト分類データセットを提案する。
我々のデータセットには、韓国で最も代表的な新聞組織の6つの政治部門から、政治的意図を含む可能性のある12,000のニュース記事が含まれています。
我々の知る限り、我々の論文は韓国で最も大規模なニュースデータセットであり、長いテキストとマルチタスクの分類問題に対処する。
- 参考スコア(独自算出の注目度): 6.633601941627045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many users reading online articles in various magazines may suffer
considerable difficulty in distinguishing the implicit intents in texts. In
this work, we focus on automatically recognizing the political intents of a
given online newspaper by understanding the context of the text. To solve this
task, we present a novel Korean text classification dataset that contains
various articles. We also provide deep-learning-based text classification
baseline models trained on the proposed dataset. Our dataset contains 12,000
news articles that may contain political intentions, from the politics section
of six of the most representative newspaper organizations in South Korea. All
the text samples are labeled simultaneously in two aspects (1) the level of
political orientation and (2) the level of pro-government. To the best of our
knowledge, our paper is the most large-scale Korean news dataset that contains
long text and addresses multi-task classification problems. We also train
recent state-of-the-art (SOTA) language models that are based on transformer
architectures and demonstrate that the trained models show decent text
classification performance. All the codes, datasets, and trained models are
available at https://github.com/Kdavid2355/KoPolitic-Benchmark-Dataset.
- Abstract(参考訳): 様々な雑誌でオンライン記事を読む多くのユーザーは、テキストの暗黙の意図を区別するのにかなり苦労している。
本研究は、テキストの文脈を理解することによって、あるオンライン新聞の政治的意図を自動的に認識することに焦点を当てる。
そこで本研究では,様々な記事を含む新しい韓国語テキスト分類データセットを提案する。
また,提案するデータセット上で学習したディープラーニングに基づくテキスト分類ベースラインモデルも提供する。
我々のデータセットには、韓国で最も代表的な新聞組織の6つの政治部門から、政治的意図を含む可能性のある12,000のニュース記事が含まれています。
すべてのテキストサンプルは、(1)政治的指向のレベル、(2)親政のレベルという2つの側面で同時にラベル付けされる。
我々の知る限り、我々の論文は韓国で最も大規模なニュースデータセットであり、長いテキストとマルチタスク分類問題に対処する。
また、トランスフォーマーアーキテクチャに基づく最近のSOTA(State-of-the-art)言語モデルをトレーニングし、トレーニングされたモデルが適切なテキスト分類性能を示すことを示す。
すべてのコード、データセット、トレーニングされたモデルはhttps://github.com/Kdavid2355/KoPolitic-Benchmark-Dataset.comで入手できる。
関連論文リスト
- Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services [5.03606775899383]
KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
論文 参考訳(メタデータ) (2023-10-06T15:19:39Z) - American Stories: A Large-Scale Structured Text Dataset of Historical
U.S. Newspapers [7.161822501147275]
本研究では,新聞画像から記事の全文を抽出する,新しい深層学習パイプラインを開発した。
これは、議会図書館の公共ドメインであるCentralling Americaコレクションの2000万件近いスキャンに適用される。
パイプラインには、レイアウト検出、可視性分類、カスタムOCR、複数のバウンディングボックスにまたがる記事テキストの関連が含まれている。
論文 参考訳(メタデータ) (2023-08-24T00:24:42Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Hierarchical Text Classification of Urdu News using Deep Neural Network [0.0]
本稿では,ウルドゥー語におけるニュースの階層的テキスト分類のためのディープラーニングモデルを提案する。
スポーツ、テクノロジー、エンターテイメントという8つのジャンルに属する8つのオンラインニュースサイトから51,325の文章で構成されている。
論文 参考訳(メタデータ) (2021-07-07T11:06:11Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。