論文の概要: Fine-grained Czech News Article Dataset: An Interdisciplinary Approach
to Trustworthiness Analysis
- arxiv url: http://arxiv.org/abs/2212.08550v1
- Date: Fri, 16 Dec 2022 16:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:21:13.995127
- Title: Fine-grained Czech News Article Dataset: An Interdisciplinary Approach
to Trustworthiness Analysis
- Title(参考訳): チェコの詳細なニュース記事データセット:信頼度分析への学際的アプローチ
- Authors: Maty\'a\v{s} Boh\'a\v{c}ek, Michal Bravansk\'y, Filip Trhl\'ik and
V\'aclav Moravec
- Abstract要約: 60ドル近いチェコのオンラインニュースソースから1万ドル以上のユニークな記事を集めています。
本研究は,テキストをパラメータに基づいて評価する詳細な方法論を開発する。
我々は、そのセット全体にわたって出現する詳細な統計と研究傾向を生み出します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the Verifee Dataset: a novel dataset of news articles with
fine-grained trustworthiness annotations. We develop a detailed methodology
that assesses the texts based on their parameters encompassing editorial
transparency, journalist conventions, and objective reporting while penalizing
manipulative techniques. We bring aboard a diverse set of researchers from
social, media, and computer sciences to overcome barriers and limited framing
of this interdisciplinary problem. We collect over $10,000$ unique articles
from almost $60$ Czech online news sources. These are categorized into one of
the $4$ classes across the credibility spectrum we propose, raging from
entirely trustworthy articles all the way to the manipulative ones. We produce
detailed statistics and study trends emerging throughout the set. Lastly, we
fine-tune multiple popular sequence-to-sequence language models using our
dataset on the trustworthiness classification task and report the best testing
F-1 score of $0.52$. We open-source the dataset, annotation methodology, and
annotators' instructions in full length at https://verifee.ai/research to
enable easy build-up work. We believe similar methods can help prevent
disinformation and educate in the realm of media literacy.
- Abstract(参考訳): 我々は,詳細な信頼度アノテーションを備えたニュース記事の新しいデータセットであるverifeeデータセットを提案する。
我々は,編集の透明性,ジャーナリストの規約,客観的な報告を包含するパラメータに基づいて,マニピュレーション手法をペナルタライズしながらテキストを評価する詳細な手法を開発した。
私たちは、この学際的な問題の障壁と限定的なフレーミングを克服するために、社会、メディア、コンピュータ科学の多様な研究者を乗せています。
60ドル近いチェコのオンラインニュースソースから1万ドル以上のユニークな記事を集めています。
これらのクラスは、私たちが提案する信頼度スペクトル全体で4ドルクラスの1つに分類され、完全に信頼できる記事からマニピュレイティブなものへと拡大しています。
詳細な統計と研究のトレンドがセット中に現れています。
最後に、信頼度分類タスクのデータセットを用いて、複数の一般的なシーケンス・ツー・シーケンス言語モデルを微調整し、最高のテストF-1スコアを0.52ドルと報告する。
私たちはデータセット、アノテーションの方法論、アノテーションの指示をhttps://verifee.ai/researchでオープンソース化しました。
同様の手法は、メディアリテラシーの分野における偽情報や教育の防止に役立つと信じている。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Shuffle & Divide: Contrastive Learning for Long Text [6.187839874846451]
コントラスト学習に基づく長文文書の自己教師型学習手法を提案する。
我々の手法の鍵は、単純なテキスト拡張アルゴリズムであるShuffle and Divide (SaD)である。
我々は、20のニュースグループ、Reuters-21578、BBC、BBCSportのデータセットで教師なしテキスト分類を行うことにより、我々の手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-04-19T02:02:29Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Neural Media Bias Detection Using Distant Supervision With BABE -- Bias
Annotations By Experts [24.51774048437496]
本稿ではメディアバイアス研究のための頑健で多様なデータセットであるBABEについて述べる。
トピックとアウトレットの間でバランスが取れた3,700の文で構成されており、単語と文のレベルにメディアバイアスラベルが含まれている。
また,本データに基づいて,ニュース記事中のバイアス文を自動的に検出する手法も導入した。
論文 参考訳(メタデータ) (2022-09-29T05:32:55Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Towards A Reliable Ground-Truth For Biased Language Detection [3.2202224129197745]
バイアスを検出する既存の方法は、主に機械学習モデルをトレーニングするための注釈付きデータに依存している。
データ収集の選択肢を評価し、2つの人気のあるクラウドソーシングプラットフォームから得られたラベルを比較した。
より詳細なアノテータトレーニングによってデータ品質が向上し、既存のバイアス検出システムの性能が向上する。
論文 参考訳(メタデータ) (2021-12-14T14:13:05Z) - Automated Evidence Collection for Fake News Detection [11.324403127916877]
本稿では,現在行われている偽ニュース検出手法を改良した新しい手法を提案する。
提案手法は,Web記事からエビデンスを抽出し,エビデンスとして扱うための適切なテキストを選択する。
我々の実験は、機械学習とディープラーニングに基づく手法の両方を用いて、我々のアプローチを広範囲に評価するのに役立つ。
論文 参考訳(メタデータ) (2021-12-13T09:38:41Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。