論文の概要: A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing
Prediction of Political Polarity in Multilingual News Headlines
- arxiv url: http://arxiv.org/abs/2212.00298v1
- Date: Thu, 1 Dec 2022 06:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:43:31.498377
- Title: A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing
Prediction of Political Polarity in Multilingual News Headlines
- Title(参考訳): 多言語ニュース見出しにおける政治的極性の予測を促進するコモンセンス型言語非依存学習フレームワーク
- Authors: Swati Swati (1 and 2), Adrian Mladeni\'c Grobelnik (1), Dunja
Mladeni\'c (1 and 2), Marko Grobelnik (1) ((1) Jo\v{z}ef Stefan Institute -
Ljubljana, (2) Jo\v{z}ef Stefan International Postgraduate School -
Ljubljana)
- Abstract要約: 対象言語における推論知識を取得するために,翻訳と検索の手法を用いる。
次に、重要な推論を強調するために注意機構を使用します。
我々は、それぞれの政治的極性に注釈を付けた5つのヨーロッパ言語で62.6K以上の多言語ニュースの見出しを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the political polarity of news headlines is a challenging task
that becomes even more challenging in a multilingual setting with low-resource
languages. To deal with this, we propose to utilise the Inferential Commonsense
Knowledge via a Translate-Retrieve-Translate strategy to introduce a learning
framework. To begin with, we use the method of translation and retrieval to
acquire the inferential knowledge in the target language. We then employ an
attention mechanism to emphasise important inferences. We finally integrate the
attended inferences into a multilingual pre-trained language model for the task
of bias prediction. To evaluate the effectiveness of our framework, we present
a dataset of over 62.6K multilingual news headlines in five European languages
annotated with their respective political polarities. We evaluate several
state-of-the-art multilingual pre-trained language models since their
performance tends to vary across languages (low/high resource). Evaluation
results demonstrate that our proposed framework is effective regardless of the
models employed. Overall, the best performing model trained with only headlines
show 0.90 accuracy and F1, and 0.83 jaccard score. With attended knowledge in
our framework, the same model show an increase in 2.2% accuracy and F1, and
3.6% jaccard score. Extending our experiments to individual languages reveals
that the models we analyze for Slovenian perform significantly worse than other
languages in our dataset. To investigate this, we assess the effect of
translation quality on prediction performance. It indicates that the disparity
in performance is most likely due to poor translation quality. We release our
dataset and scripts at: https://github.com/Swati17293/KG-Multi-Bias for future
research. Our framework has the potential to benefit journalists, social
scientists, news producers, and consumers.
- Abstract(参考訳): ニュース見出しの政治的極性を予測することは、低リソース言語による多言語環境でさらに難しい課題となる。
これに対応するために,翻訳・検索・翻訳戦略を用いて推論コモンセンス知識を活用し,学習フレームワークを導入することを提案する。
まず,翻訳と検索の手法を用いて,対象言語における推論知識を取得する。
次に、重要な推論を強調するために注意メカニズムを採用します。
バイアス予測のための多言語事前学習型言語モデルに,最後に参加者の推論を統合した。
本フレームワークの有効性を評価するため,それぞれの政治的極性に注釈を付けた5言語で62.6K以上の多言語ニュースの見出しを示す。
性能は言語によって異なる傾向があるため、最先端の多言語事前訓練言語モデルを評価した。
評価の結果,提案手法が採用するモデルによらず有効であることが示された。
概して、ヘッドラインのみをトレーニングした最高のパフォーマンスモデルは、0.90の精度とf1、0.83のjaccardスコアを示している。
フレームワークの知識に従えば、同じモデルでも2.2%の精度とF1、そして3.6%のジャカードスコアが向上する。
実験を個々の言語に拡張することで、Slovenianで分析したモデルは、データセットの他の言語よりも大幅にパフォーマンスが悪くなりました。
そこで本研究では,翻訳品質が予測性能に及ぼす影響について検討する。
翻訳品質の低さから, 性能の差が最も大きいことが示唆された。
将来の研究のために、データセットとスクリプトをhttps://github.com/Swati17293/KG-Multi-Biasでリリースします。
われわれのフレームワークはジャーナリスト、社会科学者、ニュースプロデューサー、消費者に利益をもたらす可能性がある。
関連論文リスト
- A Comparative Study of Translation Bias and Accuracy in Multilingual Large Language Models for Cross-Language Claim Verification [1.566834021297545]
本研究は,言語間クレーム検証における翻訳バイアスと大規模言語モデルの有効性を体系的に評価する。
本稿では,事前翻訳と自己翻訳の2つの異なる翻訳手法について検討する。
その結果,低リソース言語では表現不足による直接推論の精度が著しく低いことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-14T09:02:42Z) - A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。