論文の概要: Semi-automated Fact-checking in Portuguese: Corpora Enrichment using Retrieval with Claim extraction
- arxiv url: http://arxiv.org/abs/2508.06495v1
- Date: Sat, 19 Jul 2025 23:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.130832
- Title: Semi-automated Fact-checking in Portuguese: Corpora Enrichment using Retrieval with Claim extraction
- Title(参考訳): ポルトガル語における半自動ファクトチェック:クレーム抽出を用いたコーパスエンリッチメント
- Authors: Juliana Resplande Sant'anna Gomes, Arlindo Rodrigues Galvão Filho,
- Abstract要約: この論文はポルトガルのニュースコーパスを外部の証拠で強化するための方法論を開発し、適用し、分析する。
このアプローチはユーザの検証プロセスをシミュレートし、Large Language Models (LLM) を使用してテキストから主クレームを抽出する。
ベースコーパスの品質を高めるために、ほぼ重複検出を含むデータ検証および前処理フレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accelerated dissemination of disinformation often outpaces the capacity for manual fact-checking, highlighting the urgent need for Semi-Automated Fact-Checking (SAFC) systems. Within the Portuguese language context, there is a noted scarcity of publicly available datasets that integrate external evidence, an essential component for developing robust AFC systems, as many existing resources focus solely on classification based on intrinsic text features. This dissertation addresses this gap by developing, applying, and analyzing a methodology to enrich Portuguese news corpora (Fake.Br, COVID19.BR, MuMiN-PT) with external evidence. The approach simulates a user's verification process, employing Large Language Models (LLMs, specifically Gemini 1.5 Flash) to extract the main claim from texts and search engine APIs (Google Search API, Google FactCheck Claims Search API) to retrieve relevant external documents (evidence). Additionally, a data validation and preprocessing framework, including near-duplicate detection, is introduced to enhance the quality of the base corpora.
- Abstract(参考訳): 偽情報の拡散の加速は、しばしば手動の事実チェック能力を上回っ、半自動ファクトチェッキング(SAFC)システムに対する緊急の必要性を強調している。
ポルトガル語の文脈では、外部のエビデンスを組み込んだ公開データセットが不足していることが注目されている。これはAFCシステムを開発する上で不可欠なコンポーネントであり、既存のリソースの多くは本質的なテキスト機能に基づいた分類のみに焦点を当てている。
この論文はポルトガルのニュースコーパス(Fake.Br, COVID19.BR, MuMiN-PT)を外部証拠で強化するための方法論を開発し、適用し、分析することで、このギャップに対処する。
このアプローチはユーザの検証プロセスをシミュレートし、テキストや検索エンジンAPI(Google Search API、Google FactCheck Claims Search API)から主要なクレームを抽出して、関連する外部ドキュメント(証拠)を取得する。
さらに、ベースコーパスの品質を高めるために、ほぼ重複検出を含むデータ検証および前処理フレームワークが導入された。
関連論文リスト
- SMA: Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling [50.66950115630554]
Retrieval-Augmented Generation(RAG)とそのMultimodal Retrieval-Augmented Generation(MRAG)は、大規模言語モデル(LLM)の知識カバレッジと文脈理解を著しく向上させる。
しかし、検索とマルチモーダル融合によるコンテンツの曖昧さは、既存のメンバーシップ推論手法を事前学習、外部検索、ユーザ入力に確実に属性付けできないようにし、プライバシー漏洩の説明責任を損なう。
本稿では,検索制御機能を備えた半ブラックボックス設定において,生成したコンテンツの微粒なソース属性を実現するための,SMA (Source-aware Membership Audit) を提案する。
論文 参考訳(メタデータ) (2025-08-12T17:32:24Z) - An analysis of vision-language models for fabric retrieval [4.311804611758908]
情報検索やレコメンデーションシステムといったアプリケーションには,クロスモーダル検索が不可欠である。
本稿では,ファブリックサンプルのゼロショットテキスト・ツー・イメージ検索におけるビジョン言語モデルの利用について検討する。
論文 参考訳(メタデータ) (2025-07-07T08:00:18Z) - FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments [0.3874856507026475]
複数のオンラインニュースソースから得られた集合的証拠に基づいて,自動クレーム検証の必要性に対処する。
イベント、アクション、ステートメント間の遅延接続を明らかにするエンティティ中心の推論フレームワークを導入します。
提案手法は,低リソース言語に対する自動クレーム検証のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2024-07-13T13:30:20Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Learning to Filter Context for Retrieval-Augmented Generation [75.18946584853316]
生成モデルは、部分的にまたは完全に無関係な経路が与えられた出力を生成するために要求される。
FILCOは、語彙と情報理論のアプローチに基づいて有用なコンテキストを特定する。
テスト時に検索したコンテキストをフィルタリングできるコンテキストフィルタリングモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-14T18:41:54Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - FactLLaMA: Optimizing Instruction-Following Language Models with
External Knowledge for Automated Fact-Checking [10.046323978189847]
本稿では,命令追従言語モデルと外部エビデンス検索を併用して,ファクトチェック性能を向上させることを提案する。
我々のアプローチは、与えられた入力クレームに関する適切な証拠を検索するために検索エンジンを活用することである。
そして、この証拠を用いて、LLaMAと呼ばれるオープンソースの言語モデルを作成し、入力クレームの正確性をより正確に予測できるようにする。
論文 参考訳(メタデータ) (2023-09-01T04:14:39Z) - CsFEVER and CTKFacts: Czech Datasets for Fact Verification [0.0]
自動ファクトチェック機械学習モデルのトレーニングを目的としたチェコのデータセットを2つ提示する。
最初のデータセットは、約112kのクレームを持つCsFEVERで、有名なウィキペディアベースのFEVERデータセットのチェコ語バージョンを自動生成する。
3,097件からなる2番目のデータセットCTKFactsは、約200万件のチェコのニュースエージェンシーの報道のコーパス上に構築されている。
論文 参考訳(メタデータ) (2022-01-26T18:48:42Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。