論文の概要: GLOCON Database: Design Decisions and User Manual (v1.0)
- arxiv url: http://arxiv.org/abs/2405.18613v1
- Date: Tue, 28 May 2024 21:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:33:21.108237
- Title: GLOCON Database: Design Decisions and User Manual (v1.0)
- Title(参考訳): GLOCON Database: 設計決定とユーザマニュアル(v1.0)
- Authors: Ali Hürriyetoğlu, Osman Mutlu, Fırat Duruşan, Erdem Yörük,
- Abstract要約: GLOCONは、全国ニュースソースから自動的に抽出される論争的なイベントのデータベースである。
完全なニュースアーカイブは、各ソースのイベントリストを作成するために処理される。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GLOCON is a database of contentious events automatically extracted from national news sources from various countries in multiple languages. National news sources are utilized, and complete news archives are processed to create an event list for each source. Automation is achieved using a gold standard corpus sampled randomly from complete news archives (Y\"or\"uk et al. 2022) and all annotated by at least two domain experts based on the event definition provided in Duru\c{s}an et al. (2022).
- Abstract(参考訳): GLOCONは、複数の言語で各国のニュースソースから自動的に抽出される論争的な出来事のデータベースである。
全国のニュースソースが利用され、完全なニュースアーカイブが処理され、各ソースのイベントリストが作成される。
自動化は、完全なニュースアーカイブ(Y\"or\"uk et al 2022)からランダムにサンプリングされた金の標準コーパスを使用して達成され、Duru\c{s}an et al (2022)で提供されるイベント定義に基づいて、少なくとも2つのドメイン専門家によって注釈付けされる。
関連論文リスト
- 3DLNews: A Three-decade Dataset of US Local News Articles [49.1574468325115]
3DLNewsは、1996年から2024年までの期間にアメリカのローカルニュース記事を載せた、新しいデータセットである。
約100万のURL(HTMLテキストを含む)があり、50州で14,000以上の地元新聞、テレビ、ラジオ局から提供されている。
論文 参考訳(メタデータ) (2024-08-08T18:33:37Z) - Newswire: A Large-Scale Structured Database of a Century of Historical News [3.562368079040469]
歴史家は、ニュースワイヤーが国家のアイデンティティを創り、世界の理解を共有する上で重要な役割を果たしたと主張している。
数千の地方紙から数百テラバイトの原画像スキャンに、カスタマイズされたディープラーニングパイプラインを適用することで、そのようなアーカイブを再構築する。
結果として得られたデータセットには1878年から1977年の間に書かれた270万のアメリカ独自のパブリックドメインのニュースワイヤー記事が含まれている。
論文 参考訳(メタデータ) (2024-06-13T16:20:05Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2021 [55.41644538483948]
共有タスクの目標は、コミュニティにこの重要な問題を解決するための効率的な方法を考え出すことを動機付けることです。
トレーニングセットには1300件の注釈付きニュース記事、750件のリアルニュース、550件のフェイクニュース、300件のニュース記事、200件のリアルニュース、100件のフェイクニュースが含まれている。
F1-macroスコアは0.679で、これは過去最高の0.907 F1-macroよりも低かった。
論文 参考訳(メタデータ) (2022-07-11T18:58:36Z) - Multilingual Open Text 1.0: Public Domain News in 44 Languages [2.642698101441705]
コーパスの最初のリリースには270万以上のニュース記事と、2001年から2021年にかけて発行された100万の短い記事が含まれている。
ソース資料はパブリックドメインにあり、私たちのコレクションはクリエイティブコモンズライセンス(CC BY 4.0)を使用してライセンスされており、コーパスを作成するために使用されるソフトウェアはすべてMITライセンスの下でリリースされています。
論文 参考訳(メタデータ) (2022-01-14T18:58:17Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Cross-context News Corpus for Protest Events related Knowledge Base
Construction [0.15393457051344295]
我々は、英語の様々な地域および国際情報源からなる抗議イベントのゴールドスタンダードコーパスについて述べる。
このコーパスは、ニュース記事を自動的に分類し、抗議イベント関連情報を抽出する機械学習モデルの作成を容易にする。
論文 参考訳(メタデータ) (2020-08-01T22:20:48Z) - Quantum Criticism: A Tagged News Corpus Analysed for Sentiment and Named
Entities [18.458831729497224]
従来のニュースソースのRSSフィードからデータを継続的に収集する。
論文,段落,文レベルで各ニュース記事の感情分析を行う。
このコーパス内のデータは、ニュースレポートのバイアスを特定するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-06-05T17:59:12Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。