論文の概要: BLUFF: Benchmarking the Detection of False and Synthetic Content across 58 Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2603.00634v1
- Date: Sat, 28 Feb 2026 12:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.303237
- Title: BLUFF: Benchmarking the Detection of False and Synthetic Content across 58 Low-Resource Languages
- Title(参考訳): BLUFF:58の低リソース言語にわたる偽コンテンツと合成コンテンツの検出のベンチマーク
- Authors: Jason Lucas, Matt Murtagh-White, Adaku Uchendu, Ali Al-Lawati, Michiharu Yamashita, Dominik Macko, Ivan Srba, Robert Moro, Dongwon Lee,
- Abstract要約: BLUFFは、79言語で偽と合成のコンテンツを検出するためのベンチマークである。
高リソースの "Big-head" (20) と低リソースの "Long-tail" (59) 言語の両方をカバーする。
AXL-CoIは,偽ニュース・実ニュース生成を制御するための新しいマルチエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 11.893370892009834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multilingual falsehoods threaten information integrity worldwide, yet detection benchmarks remain confined to English or a few high-resource languages, leaving low-resource linguistic communities without robust defense tools. We introduce BLUFF, a comprehensive benchmark for detecting false and synthetic content, spanning 79 languages with over 202K samples, combining human-written fact-checked content (122K+ samples across 57 languages) and LLM-generated content (79K+ samples across 71 languages). BLUFF uniquely covers both high-resource "big-head" (20) and low-resource "long-tail" (59) languages, addressing critical gaps in multilingual research on detecting false and synthetic content. Our dataset features four content types (human-written, LLM-generated, LLM-translated, and hybrid human-LLM text), bidirectional translation (English$\leftrightarrow$X), 39 textual modification techniques (36 manipulation tactics for fake news, 3 AI-editing strategies for real news), and varying edit intensities generated using 19 diverse LLMs. We present AXL-CoI (Adversarial Cross-Lingual Agentic Chainof-Interactions), a novel multi-agentic framework for controlled fake/real news generation, paired with mPURIFY, a quality filtering pipeline ensuring dataset integrity. Experiments reveal state-of-theart detectors suffer up to 25.3% F1 degradation on low-resource versus high-resource languages. BLUFF provides the research community with a multilingual benchmark, extensive linguistic-oriented benchmark evaluation, comprehensive documentation, and opensource tools to advance equitable falsehood detection. Dataset and code are available at: https://jsl5710.github.io/BLUFF/
- Abstract(参考訳): マルチリンガルの偽装は、世界中の情報整合性を脅かすが、検出ベンチマークは英語またはいくつかの高リソース言語に限られており、堅牢な防御ツールなしで低リソースの言語コミュニティを残している。
BLUFFは、偽・合成コンテンツを検出するための総合的なベンチマークであり、79言語と202K以上のサンプルを対象とし、人書き事実チェックコンテンツ(57言語122K+サンプル)とLLM生成コンテンツ(71言語79K+サンプル)を組み合わせた。
BLUFFは、高リソースの"Big-head" (20) と低リソースの"Long-tail" (59) 言語の両方を独自にカバーし、偽および合成コンテンツの検出に関する多言語研究における重要なギャップに対処している。
本データセットは,4種類のコンテンツタイプ (人書き, LLM生成, LLM翻訳, ハイブリッド・ヒューマン・LLMテキスト), 双方向翻訳 (英語$\leftrightarrow$X), 39のテキスト修正技術 (偽ニュースの36の操作方法, 実ニュースの3つのAI編集戦略), および19種類のLLMを用いて生成された編集強度を特徴とする。
AXL-CoI(Adversarial Cross-Lingual Agentic Chainof-Interactions)は,データセットの整合性を保証する品質フィルタリングパイプラインであるmPURIFYと組み合わせて,フェイク/リアルニュース生成を制御する新しいマルチエージェントフレームワークである。
実験により、最先端の検出器は、低リソース言語と高リソース言語で25.3%のF1劣化に悩まされていることが明らかになった。
BLUFFは研究コミュニティに、多言語ベンチマーク、広範な言語指向ベンチマーク評価、包括的なドキュメント、公平な偽造検出を促進するためのオープンソースツールを提供する。
データセットとコードは、https://jsl5710.github.io/BLUFF/で入手できる。
関連論文リスト
- Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - One ruler to measure them all: Benchmarking multilingual long-context language models [31.669282956425658]
我々は26言語にわたる長文言語モデルを評価するために設計された多言語ベンチマークONERULERを提案する。
英語は、長文タスク(26語中6位)における最高のパフォーマンス言語ではなく、ポーランド語が最上位言語として登場した。
異なる言語で命令とコンテキストが現れる言語間シナリオでは、命令言語によってパフォーマンスが最大20%変動する。
論文 参考訳(メタデータ) (2025-03-03T19:12:48Z) - UnifiedCrawl: Aggregated Common Crawl for Affordable Adaptation of LLMs on Low-Resource Languages [2.66269503676104]
大規模言語モデル(LLM)は低リソース言語での性能が低い。
低リソース言語のためのテキストデータを効率的に収集する手法を提案する。
我々のアプローチであるUnifiedCrawlは、最小限の計算リソースを使用して共通のクローをフィルタし、抽出する。
論文 参考訳(メタデータ) (2024-11-21T17:41:08Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。