Fugu-MT 論文翻訳(概要): Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

論文の概要: Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking

arxiv url: http://arxiv.org/abs/2502.15419v1
Date: Fri, 21 Feb 2025 12:38:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.164292
Title: Beyond Translation: LLM-Based Data Generation for Multilingual Fact-Checking
Title（参考訳）: 翻訳を超えて:多言語 Fact-Checking のための LLM ベースのデータ生成
Authors: Yi-Ling Chung, Aurora Cobo, Pablo Serna,
Abstract要約: MultiSynFactは、2.2Mのクレームソースペアを含む最初の大規模多言語ファクトチェックデータセットである。我々のデータセット生成パイプラインはLarge Language Models (LLMs)を活用し、ウィキペディアの外部知識を統合する。ユーザフレンドリーなフレームワークをオープンソースとして公開し、マルチリンガルなファクトチェックとデータセット生成のさらなる研究を支援します。
参考スコア（独自算出の注目度）: 2.321323878201932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust automatic fact-checking systems have the potential to combat online misinformation at scale. However, most existing research primarily focuses on English. In this paper, we introduce MultiSynFact, the first large-scale multilingual fact-checking dataset containing 2.2M claim-source pairs designed to support Spanish, German, English, and other low-resource languages. Our dataset generation pipeline leverages Large Language Models (LLMs), integrating external knowledge from Wikipedia and incorporating rigorous claim validation steps to ensure data quality. We evaluate the effectiveness of MultiSynFact across multiple models and experimental settings. Additionally, we open-source a user-friendly framework to facilitate further research in multilingual fact-checking and dataset generation.
Abstract（参考訳）: 不正なファクトチェックシステムは、大規模なオンライン誤報と戦う可能性がある。しかし、既存の研究は主に英語に焦点を当てている。本稿では,スペイン語,ドイツ語,英語,その他の低リソース言語をサポートするために設計された2.2Mクレームソースペアを含む,最初の大規模多言語ファクトチェックデータセットであるMultiSynFactを紹介する。我々のデータセット生成パイプラインは、Large Language Models (LLMs)を活用し、ウィキペディアの外部知識を統合し、データ品質を保証するために厳格なクレーム検証手順を取り入れています。複数のモデルおよび実験環境におけるMultiSynFactの有効性を評価する。さらに,多言語ファクトチェックとデータセット生成のさらなる研究を支援するために,ユーザフレンドリなフレームワークをオープンソース化した。

関連論文リスト

HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。 30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。 57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文参考訳（メタデータ） (2025-11-02T20:16:38Z)
Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文参考訳（メタデータ） (2025-03-11T02:49:41Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。モデルとデータセットの両方を研究コミュニティに公開しています。
論文参考訳（メタデータ） (2023-05-23T08:43:42Z)
Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。 In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文参考訳（メタデータ） (2022-10-24T11:41:20Z)
Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文参考訳（メタデータ） (2022-10-13T19:34:14Z)
X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文参考訳（メタデータ） (2021-06-17T05:09:54Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)
Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。自己監督は多言語モデルのゼロショット翻訳品質を改善する。並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文参考訳（メタデータ） (2020-05-11T00:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。