論文の概要: UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying
Multilingual Check-worthy Claims
- arxiv url: http://arxiv.org/abs/2109.09232v1
- Date: Sun, 19 Sep 2021 21:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 07:00:57.140369
- Title: UPV at CheckThat! 2021: Mitigating Cultural Differences for Identifying
Multilingual Check-worthy Claims
- Title(参考訳): チェックでupv!
2021年多言語チェック価値のある主張の文化的差異を誤認
- Authors: Ipek Baris Schlicht, Angel Felipe Magnoss\~ao de Paula and Paolo Rosso
- Abstract要約: 本稿では,意図しないバイアスを軽減するための補助課題として,言語識別タスクを提案する。
その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。
- 参考スコア(独自算出の注目度): 6.167830237917659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying check-worthy claims is often the first step of automated
fact-checking systems. Tackling this task in a multilingual setting has been
understudied. Encoding inputs with multilingual text representations could be
one approach to solve the multilingual check-worthiness detection. However,
this approach could suffer if cultural bias exists within the communities on
determining what is check-worthy.In this paper, we propose a language
identification task as an auxiliary task to mitigate unintended bias.With this
purpose, we experiment joint training by using the datasets from CLEF-2021
CheckThat!, that contain tweets in English, Arabic, Bulgarian, Spanish and
Turkish. Our results show that joint training of language identification and
check-worthy claim detection tasks can provide performance gains for some of
the selected languages.
- Abstract(参考訳): チェックに値するクレームを特定することは、自動化されたファクトチェックシステムの最初のステップであることが多い。
このタスクを多言語で処理する方法が検討されている。
多言語テキスト表現による入力のエンコーディングは、多言語チェック値検出の1つの方法である。
そこで,本研究では,不意のバイアスを緩和するための補助タスクとして,言語識別タスクを提案する。本研究の目的は,英語,アラビア語,ブルガリア語,スペイン語,トルコ語のツイートを含むclef-2021 checkthat!のデータセットを用いて,共同トレーニングを行うことである。
その結果,言語識別とチェックアワーなクレーム検出タスクを併用することで,選択した言語の性能向上が期待できることがわかった。
関連論文リスト
- Efficiently Identifying Low-Quality Language Subsets in Multilingual Datasets: A Case Study on a Large-Scale Multilingual Audio Dataset [13.041053110012246]
このような信頼できないサブセットを特定するための統計的テストであるPreference Proportion Testを導入する。
音素書き起こしの下流タスクのトレーニングモデルで、この低品質データをフィルタリングすることで、大きなメリットが得られます。
論文 参考訳(メタデータ) (2024-10-05T21:41:49Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles
for Detecting Patronizing and Condescending Language [0.0]
PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。
本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。
論文 参考訳(メタデータ) (2022-04-18T13:22:10Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Matching Tweets With Applicable Fact-Checks Across Languages [27.762055254009017]
ソーシャルメディア投稿(ツイート)のクレームに対する既存のファクトチェックを自動的に見つけることに重点を置いています。
モノリンガル(英語のみ)、マルチリンガル(スペイン語、ポルトガル語)、クロスリンガル(ヒンディー語-英語)の設定において、分類と検索の両方の実験を行う。
4つの言語対における「マッチ」分類(平均精度93%)の有望な結果を示す。
論文 参考訳(メタデータ) (2022-02-14T23:33:02Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Handshakes AI Research at CASE 2021 Task 1: Exploring different
approaches for multilingual tasks [0.22940141855172036]
ケース2021共有タスク1の目的は,多言語環境下での社会・政治・危機事象情報の検出と分類である。
提案書にはすべてのサブタスクのエントリが含まれており,得られたスコアが調査結果の妥当性を検証した。
論文 参考訳(メタデータ) (2021-10-29T07:58:49Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。