論文の概要: ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles
- arxiv url: http://arxiv.org/abs/2601.19490v1
- Date: Tue, 27 Jan 2026 11:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.298981
- Title: ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles
- Title(参考訳): ClaimPT: ニュース記事中の注釈付きクレームのポルトガルのデータセット
- Authors: Ricardo Campos, Raquel Sequeira, Sara Nerea, Inês Cantante, Diogo Folques, Luís Filipe Cunha, João Canavilhas, António Branco, Alípio Jorge, Sérgio Nunes, Nuno Guimarães, Purificação Silvano,
- Abstract要約: ClaimPTは、事実主張に注釈を付けたヨーロッパのポルトガルのニュース記事のデータセットである。
2つの訓練されたアノテーションは各記事にラベルを付け、キュレーターは新しく提案されたスキームに従ってすべてのアノテーションを検証する。
クレーム検出のためのベースラインモデルを提供し、初期ベンチマークを確立し、将来のNLPおよびIRアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 6.3071668118252076
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fact-checking remains a demanding and time-consuming task, still largely dependent on manual verification and unable to match the rapid spread of misinformation online. This is particularly important because debunking false information typically takes longer to reach consumers than the misinformation itself; accelerating corrections through automation can therefore help counter it more effectively. Although many organizations perform manual fact-checking, this approach is difficult to scale given the growing volume of digital content. These limitations have motivated interest in automating fact-checking, where identifying claims is a crucial first step. However, progress has been uneven across languages, with English dominating due to abundant annotated data. Portuguese, like other languages, still lacks accessible, licensed datasets, limiting research, NLP developments and applications. In this paper, we introduce ClaimPT, a dataset of European Portuguese news articles annotated for factual claims, comprising 1,308 articles and 6,875 individual annotations. Unlike most existing resources based on social media or parliamentary transcripts, ClaimPT focuses on journalistic content, collected through a partnership with LUSA, the Portuguese News Agency. To ensure annotation quality, two trained annotators labeled each article, with a curator validating all annotations according to a newly proposed scheme. We also provide baseline models for claim detection, establishing initial benchmarks and enabling future NLP and IR applications. By releasing ClaimPT, we aim to advance research on low-resource fact-checking and enhance understanding of misinformation in news media.
- Abstract(参考訳): Fact-checkingは依然として必要で時間を要するタスクであり、手作業による検証に大きく依存している。
特に重要なのは、偽情報の開示が誤情報そのものよりも消費者に届くのに通常時間がかかり、自動化による修正の加速がより効果的に対処できるためである。
多くの組織が手動のファクトチェックを行っているが、デジタルコンテンツの量の増加を考えると、この方法はスケールが難しい。
これらの制限は、クレームの特定が重要な第一歩であるファクトチェックの自動化への関心を動機付けている。
しかし、言語間での進歩は不均一であり、豊富な注釈付きデータによって英語が支配的になっている。
他の言語と同様にポルトガル語には、アクセス可能でライセンスされたデータセット、研究の制限、NLP開発、アプリケーションがない。
本稿では,1,308の論文と6,875の個別の注釈を含む,事実主張に言及したポルトガル語ニュース記事のデータセットであるClimPTを紹介する。
ソーシャルメディアや議会文書に基づく既存のリソースとは異なり、ClamPTはジャーナリストのコンテンツに焦点を当てており、ポルトガルのニュースエージェンシーであるLUSAとのパートナーシップを通じて収集されている。
アノテーションの品質を確保するため、2つの訓練されたアノテーションが各記事にラベルを付け、キュレーターが新しく提案されたスキームに従ってすべてのアノテーションを検証する。
また、クレーム検出のためのベースラインモデルを提供し、初期ベンチマークを確立し、将来のNLPおよびIRアプリケーションを可能にする。
ClaimPTをリリースすることで、低リソースの事実チェックの研究を進め、ニュースメディアにおける誤情報の理解を深めることを目指している。
関連論文リスト
- Semi-automated Fact-checking in Portuguese: Corpora Enrichment using Retrieval with Claim extraction [0.0]
この論文はポルトガルのニュースコーパスを外部の証拠で強化するための方法論を開発し、適用し、分析する。
このアプローチはユーザの検証プロセスをシミュレートし、Large Language Models (LLM) を使用してテキストから主クレームを抽出する。
ベースコーパスの品質を高めるために、ほぼ重複検出を含むデータ検証および前処理フレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-19T23:46:40Z) - Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts [29.95198868148809]
本稿では,プロのファクトチェッカーがアウトレット全体の事実と政治的偏見を評価するために使用する基準をエミュレートする新しい手法を提案する。
メディアの人気と地域がモデル性能に与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2025-06-14T15:49:20Z) - A Generative-AI-Driven Claim Retrieval System Capable of Detecting and Retrieving Claims from Social Media Platforms in Multiple Languages [1.3331869040581863]
本研究は, 事実チェック済みのクレームを検索し, 所定のインプットとの関連性を評価し, 事実チェックを支援するための補助情報を提供するアプローチを提案する。
提案手法では,無関係な事実チェックをフィルタリングし,簡潔な要約と説明を生成するために,大規模言語モデル(LLM)を用いる。
以上の結果から,LCMは無関係なファクトチェックの多くをフィルタリングし,労力を削減し,ファクトチェックプロセスを合理化できることが示唆された。
論文 参考訳(メタデータ) (2025-04-29T11:49:05Z) - FactFinders at CheckThat! 2024: Refining Check-worthy Statement Detection with LLMs through Data Pruning [43.82613670331329]
本研究では,オープンソースの言語モデルを用いて,政治的書き起こしからチェックにふさわしい文章を識別する手法について検討する。
本稿では,高品質なトレーニングデータインスタンスを自動的に同定し,効果的な学習を行うための2段階のデータ解析手法を提案する。
私たちのチームは英語のチェック・マインドネス・タスクで1位にランクインした。
論文 参考訳(メタデータ) (2024-06-26T12:31:31Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - Automated Claim Matching with Large Language Models: Empowering
Fact-Checkers in the Fight Against Misinformation [11.323961700172175]
FACT-GPTは、大規模言語モデルを用いたファクトチェックのクレームマッチングフェーズを自動化するために設計されたフレームワークである。
このフレームワークは、ファクトチェッカーによって以前否定された主張を支持したり、否定したりする新しいソーシャルメディアコンテンツを識別する。
FACT-GPTを公衆衛生に関連するソーシャルメディアコンテンツのデータセットとして評価した。
論文 参考訳(メタデータ) (2023-10-13T16:21:07Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。