論文の概要: Accenture at CheckThat! 2020: If you say so: Post-hoc fact-checking of
claims using transformer-based models
- arxiv url: http://arxiv.org/abs/2009.02431v1
- Date: Sat, 5 Sep 2020 01:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 21:03:18.781449
- Title: Accenture at CheckThat! 2020: If you say so: Post-hoc fact-checking of
claims using transformer-based models
- Title(参考訳): CheckThatでのアクセント!
2020年: トランスフォーマーベースのモデルによるクレームのポストホックな事実チェック
- Authors: Evan Williams, Paul Rodrigues, Valerie Novak
- Abstract要約: CLEF 2020 CheckThat! Lab, Task 1 on English and Arabic。
この共有タスクは、ソーシャルメディアテキストのクレームがプロとして事実チェックされるべきかどうかを評価する。
我々はBERTとRoBERTaモデルを用いて、プロのファクトチェッカーがレビューすべきソーシャルメディアテキストのクレームを特定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the strategies used by the Accenture Team for the CLEF2020
CheckThat! Lab, Task 1, on English and Arabic. This shared task evaluated
whether a claim in social media text should be professionally fact checked. To
a journalist, a statement presented as fact, which would be of interest to a
large audience, requires professional fact-checking before dissemination. We
utilized BERT and RoBERTa models to identify claims in social media text a
professional fact-checker should review, and rank these in priority order for
the fact-checker. For the English challenge, we fine-tuned a RoBERTa model and
added an extra mean pooling layer and a dropout layer to enhance
generalizability to unseen text. For the Arabic task, we fine-tuned
Arabic-language BERT models and demonstrate the use of back-translation to
amplify the minority class and balance the dataset. The work presented here was
scored 1st place in the English track, and 1st, 2nd, 3rd, and 4th place in the
Arabic track.
- Abstract(参考訳): 我々はclef2020 checkthatのためにaccentureチームが使用する戦略を紹介します!
Lab, Task 1 - 英語とアラビア語。
この共有タスクは、ソーシャルメディアテキストのクレームが実際に事実チェックされるべきかどうかを評価する。
ジャーナリストにとって、事実として提示される声明は、広まる前に専門的な事実確認を必要とする。
我々はBERTとRoBERTaモデルを用いて、プロのファクトチェッカーがレビューすべきソーシャルメディアテキストのクレームを特定し、これらをファクトチェッカーの優先順位順にランク付けした。
英語の課題に対して、RoBERTaモデルを微調整し、余分な平均プーリング層とドロップアウト層を追加し、目に見えないテキストへの一般化性を高めました。
アラビア語のタスクでは、アラビア語のBERTモデルを微調整し、少数民族を増幅しデータセットのバランスをとるためにバック翻訳を使うことを実証する。
ここで提示された作品はイングランドのトラックで1位、アラビアのトラックで1位、2位、3位、4位となった。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for
Classifying Arabic Speech Acts on Twitter [0.32885740436059047]
本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。
本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。
その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
論文 参考訳(メタデータ) (2024-01-30T19:01:24Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Z-Index at CheckThat! Lab 2022: Check-Worthiness Identification on Tweet
Text [2.0887898772540217]
Subtask-1A: Check-worthiness of tweets(英語、オランダ語、スペイン語) of CheckThat! lab at CLEF 2022。
我々は、標準的な事前処理のステップを実行し、与えられたテキストが事実チェックに値するかどうかを識別するために異なるモデルを適用した。
また,実験にはBERT多言語モデル (BERT-m) とXLM-RoBERTa-base を用いた。
論文 参考訳(メタデータ) (2022-07-15T06:21:35Z) - Overview of the CLEF--2021 CheckThat! Lab on Detecting Check-Worthy
Claims, Previously Fact-Checked Claims, and Fake News [21.574997165145486]
第4回CheckThat! Lab, 2021 Conference and the Labs of the Evaluation Forum (CLEF)について述べる。
同研究所は、事実性に関連する技術支援タスクを評価し、アラビア語、ブルガリア語、英語、スペイン語、トルコ語をカバーしている。
論文 参考訳(メタデータ) (2021-09-23T06:10:36Z) - Accenture at CheckThat! 2021: Interesting claim identification and
ranking with contextually sensitive lexical training data augmentation [0.0]
本稿では,CLEF2021 CheckThat! Lab, Task 1におけるAccenture Teamのアプローチについて論じる。
ソーシャルメディア上での主張が、幅広い読者にとって興味深いものなのか、事実確認されるべきなのかを特定できる。
Twitterのトレーニングとテストデータは、英語、アラビア語、スペイン語、トルコ語、ブルガリア語で提供されている。
論文 参考訳(メタデータ) (2021-07-12T18:46:47Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - An Empirical Study of Pre-trained Transformers for Arabic Information
Extraction [25.10651348642055]
我々は、GigaBERTと呼ばれるカスタマイズされたバイリンガルBERTを、アラビア語のNLPと英語からアラビア語へのゼロショットトランスファー学習のために事前訓練する。
GigaBERTによるIEタスク間のゼロショート転送の有効性について検討した。
我々の最良のモデルは、教師付きおよびゼロショット転送設定の両方において、mBERT、XLM-RoBERTa、AraBERTを大きく上回る。
論文 参考訳(メタデータ) (2020-04-30T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。