論文の概要: Accenture at CheckThat! 2021: Interesting claim identification and
ranking with contextually sensitive lexical training data augmentation
- arxiv url: http://arxiv.org/abs/2107.05684v1
- Date: Mon, 12 Jul 2021 18:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 03:12:35.186522
- Title: Accenture at CheckThat! 2021: Interesting claim identification and
ranking with contextually sensitive lexical training data augmentation
- Title(参考訳): CheckThatでのアクセント!
2021:文脈に敏感な語彙学習データ強化によるクレーム識別とランク付け
- Authors: Evan Williams, Paul Rodrigues, Sieu Tran
- Abstract要約: 本稿では,CLEF2021 CheckThat! Lab, Task 1におけるAccenture Teamのアプローチについて論じる。
ソーシャルメディア上での主張が、幅広い読者にとって興味深いものなのか、事実確認されるべきなのかを特定できる。
Twitterのトレーニングとテストデータは、英語、アラビア語、スペイン語、トルコ語、ブルガリア語で提供されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses the approach used by the Accenture Team for CLEF2021
CheckThat! Lab, Task 1, to identify whether a claim made in social media would
be interesting to a wide audience and should be fact-checked. Twitter training
and test data were provided in English, Arabic, Spanish, Turkish, and
Bulgarian. Claims were to be classified (check-worthy/not check-worthy) and
ranked in priority order for the fact-checker. Our method used deep neural
network transformer models with contextually sensitive lexical augmentation
applied on the supplied training datasets to create additional training
samples. This augmentation approach improved the performance for all languages.
Overall, our architecture and data augmentation pipeline produced the best
submitted system for Arabic, and performance scales according to the quantity
of provided training data for English, Spanish, Turkish, and Bulgarian. This
paper investigates the deep neural network architectures for each language as
well as the provided data to examine why the approach worked so effectively for
Arabic, and discusses additional data augmentation measures that should could
be useful to this problem.
- Abstract(参考訳): 本稿では,CLEF2021 CheckThatに対するAccenture Teamのアプローチについて議論する。
ソーシャルメディア上でのクレームが、幅広いオーディエンスにとって興味深く、事実チェックを受けるべきかどうかを特定するための、タスク1である。
twitterのトレーニングとテストデータは英語、アラビア語、スペイン語、トルコ語、ブルガリア語で提供されている。
クレームは分類(チェック値/チェック値なし)され、ファクトチェッカーの優先順位でランク付けされる。
本手法では,与えられたトレーニングデータセットに適用した文脈に敏感な語彙拡張を伴うディープニューラルネットワークトランスフォーマモデルを用いて,追加のトレーニングサンプルを作成した。
この拡張アプローチにより、すべての言語のパフォーマンスが向上した。
全体として、我々のアーキテクチャとデータ拡張パイプラインは、英語、スペイン語、トルコ語、ブルガリア語で提供されたトレーニングデータ量に応じて、アラビア語で最高の送信システムとパフォーマンススケールを生成しました。
本稿では,各言語に対するディープニューラルネットワークアーキテクチャと提供されたデータについて検討し,このアプローチがアラビア語で効果的に機能する理由を検討するとともに,この問題に有用であるべき追加データ拡張対策について考察する。
関連論文リスト
- Training Bilingual LMs with Data Constraints in the Targeted Language [20.262591969661447]
本研究では,データ制約対象言語における事前学習モデルの性能を向上させるために,高品質なデータを利用できる補助言語からデータを抽出する手法について検討する。
本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。
以上の結果から,より強力な補助データセットは,モデルの変更や近接言語学習の目的を伴わずに,性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2024-11-20T02:27:40Z) - IAI Group at CheckThat! 2024: Transformer Models and Data Augmentation for Checkworthy Claim Detection [1.3686993145787067]
本稿では,IAIグループによるクレームの自動チェックハーネス評価への参加について述べる。
このタスクには、英語、オランダ語、アラビア語の政治討論やTwitterのデータで、チェック価値のあるクレームを自動的に検出することが含まれる。
我々は、様々な事前学習された生成デコーダとエンコーダ変換モデルを利用し、少数ショットチェーンオブ思考推論のような手法を用いる。
論文 参考訳(メタデータ) (2024-08-02T08:59:09Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Data Augmentation using Transformers and Similarity Measures for
Improving Arabic Text Classification [0.0]
本稿では,最近の強力なモデリング手法であるAraGPT-2を用いた新しいアラビアDA手法を提案する。
生成された文は、ユークリッド、コサイン、ジャカード、BLEU距離を用いて、文脈、意味、多様性、新規性の観点から評価される。
AraSarcasm, ASTD, ATT, MOVIEの4つの感情アラビアデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-12-28T16:38:43Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Machine Translation Pre-training for Data-to-Text Generation -- A Case
Study in Czech [5.609443065827995]
非英語言語におけるデータ・テキスト生成における機械翻訳に基づく事前学習の有効性について検討する。
事前トレーニングによって、パフォーマンスを大幅に向上したエンドツーエンドモデルのトレーニングが可能になります。
論文 参考訳(メタデータ) (2020-04-05T02:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。