論文の概要: Claim Matching Beyond English to Scale Global Fact-Checking
- arxiv url: http://arxiv.org/abs/2106.00853v1
- Date: Tue, 1 Jun 2021 23:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:36:48.958998
- Title: Claim Matching Beyond English to Scale Global Fact-Checking
- Title(参考訳): 英語以外のクレームマッチングによるグローバルなファクトチェックのスケールアップ
- Authors: Ashkan Kazemi, Kiran Garimella, Devin Gaffney and Scott A. Hale
- Abstract要約: 我々は、ファクトチェックされたクレームに加えて、WhatsAppのチップラインと公開グループメッセージの新しいデータセットを構築します。
我々のデータセットには、高リソース(英語、ヒンディー語)と低リソース(ベンガル語、マラヤラム語、タミル語)のコンテンツが含まれています。
我々は、低リソース言語と高リソース言語の埋め込み品質の不均衡に対応するため、知識蒸留と高品質な「教師」モデルを用いて、独自の埋め込みモデルを訓練する。
- 参考スコア(独自算出の注目度): 5.836354423653351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual fact-checking does not scale well to serve the needs of the internet.
This issue is further compounded in non-English contexts. In this paper, we
discuss claim matching as a possible solution to scale fact-checking. We define
claim matching as the task of identifying pairs of textual messages containing
claims that can be served with one fact-check. We construct a novel dataset of
WhatsApp tipline and public group messages alongside fact-checked claims that
are first annotated for containing "claim-like statements" and then matched
with potentially similar items and annotated for claim matching. Our dataset
contains content in high-resource (English, Hindi) and lower-resource (Bengali,
Malayalam, Tamil) languages. We train our own embedding model using knowledge
distillation and a high-quality "teacher" model in order to address the
imbalance in embedding quality between the low- and high-resource languages in
our dataset. We provide evaluations on the performance of our solution and
compare with baselines and existing state-of-the-art multilingual embedding
models, namely LASER and LaBSE. We demonstrate that our performance exceeds
LASER and LaBSE in all settings. We release our annotated datasets, codebooks,
and trained embedding model to allow for further research.
- Abstract(参考訳): 手動の事実チェックは、インターネットのニーズを満たすためにうまくスケールしない。
この問題は英語以外の文脈でさらに複雑になる。
本稿では,ファクトチェックをスケールする手段として,クレームマッチングについて論じる。
我々は、クレームマッチングを、1つのファクトチェックで提供可能なクレームを含むテキストメッセージのペアを特定するタスクとして定義する。
我々は、WhatsAppのチップラインと公開グループメッセージのデータセットを、ファクトチェックされたクレームとともに構築し、最初に“claim-like statement”を含むアノテートされ、潜在的に類似したアイテムとマッチし、クレームマッチングのためのアノテートされる。
我々のデータセットには、高リソース(英語、ヒンディー語)と低リソース(ベンガル語、マラヤラム語、タミル語)のコンテンツが含まれています。
データセット内の低リソース言語と高リソース言語間の品質の不均衡に対処するため、知識の蒸留と高品質な"教師"モデルを使って、独自の組込みモデルをトレーニングします。
本稿では,本ソリューションの性能評価を行い,ベースラインと既存の多言語埋め込みモデルであるLASERとLaBSEと比較する。
すべての設定において、私たちのパフォーマンスがLASERとLaBSEを超えていることを示します。
アノテーション付きデータセット、コードブック、トレーニングされた埋め込みモデルをリリースし、さらなる研究を可能にします。
関連論文リスト
- FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments [0.3874856507026475]
複数のオンラインニュースソースから得られた集合的証拠に基づいて,自動クレーム検証の必要性に対処する。
イベント、アクション、ステートメント間の遅延接続を明らかにするエンティティ中心の推論フレームワークを導入します。
提案手法は,低リソース言語に対する自動クレーム検証のギャップを埋めようとしている。
論文 参考訳(メタデータ) (2024-07-13T13:30:20Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - conSultantBERT: Fine-tuned Siamese Sentence-BERT for Matching Jobs and
Job Seekers [2.208694022993555]
解析された履歴データのノイズ、異なるデータソースの異種性、およびクロスリンガル性および多言語性がドメイン固有の課題であることを示す。
我々は、大規模な実世界と高品質のデータセットを使用して、当社のスタッフコンサルタントによってラベル付けされた270,000回の再開空白ペアを使用して、conSultantBERT(conSultantBERT)と呼ばれるSiamese Sentence Siamese-BERT(SBERT)モデルを微調整することで、これらの課題に対処する。
我々の微調整モデルはTF-IDF重み付き特徴ベクトルとBERT埋め込みに依存する教師なしベースラインと教師なしベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-14T07:57:05Z) - Mixed Attention Transformer for LeveragingWord-Level Knowledge to Neural
Cross-Lingual Information Retrieval [15.902630454568811]
本稿では,辞書や翻訳表などの外部単語レベルの知識を取り入れた,MAT(Mixed Attention Transformer)を提案する。
翻訳知識をアテンションマトリックスに符号化することにより、MATを用いたモデルは、入力シーケンス内の相互翻訳された単語にフォーカスすることができる。
論文 参考訳(メタデータ) (2021-09-07T00:33:14Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。