論文の概要: QU-NLP at CheckThat! 2025: Multilingual Subjectivity in News Articles Detection using Feature-Augmented Transformer Models with Sequential Cross-Lingual Fine-Tuning
- arxiv url: http://arxiv.org/abs/2507.21095v1
- Date: Tue, 01 Jul 2025 13:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.859588
- Title: QU-NLP at CheckThat! 2025: Multilingual Subjectivity in News Articles Detection using Feature-Augmented Transformer Models with Sequential Cross-Lingual Fine-Tuning
- Title(参考訳): QU-NLP at CheckThat!
- Authors: Mohammad AL-Smadi,
- Abstract要約: 本稿では,主観性検出における2025タスク1のチェックタットに対するアプローチについて述べる。
本稿では,事前学習した言語モデルからの文脈埋め込みと統計的・言語的特徴を組み合わせた機能拡張型トランスフォーマーアーキテクチャを提案する。
モノリンガル,多言語,ゼロショット設定で,英語,アラビア語,ドイツ語,イタリア語,およびいくつかの未知言語を含む複数の言語で評価を行った。
- 参考スコア(独自算出の注目度): 0.21756081703275998
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents our approach to the CheckThat! 2025 Task 1 on subjectivity detection, where systems are challenged to distinguish whether a sentence from a news article expresses the subjective view of the author or presents an objective view on the covered topic. We propose a feature-augmented transformer architecture that combines contextual embeddings from pre-trained language models with statistical and linguistic features. Our system leveraged pre-trained transformers with additional lexical features: for Arabic we used AraELECTRA augmented with part-of-speech (POS) tags and TF-IDF features, while for the other languages we fine-tuned a cross-lingual DeBERTa~V3 model combined with TF-IDF features through a gating mechanism. We evaluated our system in monolingual, multilingual, and zero-shot settings across multiple languages including English, Arabic, German, Italian, and several unseen languages. The results demonstrate the effectiveness of our approach, achieving competitive performance across different languages with notable success in the monolingual setting for English (rank 1st with macro-F1=0.8052), German (rank 3rd with macro-F1=0.8013), Arabic (rank 4th with macro-F1=0.5771), and Romanian (rank 1st with macro-F1=0.8126) in the zero-shot setting. We also conducted an ablation analysis that demonstrated the importance of combining TF-IDF features with the gating mechanism and the cross-lingual transfer for subjectivity detection. Furthermore, our analysis reveals the model's sensitivity to both the order of cross-lingual fine-tuning and the linguistic proximity of the training languages.
- Abstract(参考訳): この論文は、我々のCheckThatへのアプローチを示します!
2025 主観的検出に関するタスク1では、ニュース記事からの文章が著者の主観的視点を表現しているか、対象トピックの客観的視点を提示するかを区別するシステムに挑戦する。
本稿では,事前学習した言語モデルからの文脈埋め込みと統計的・言語的特徴を組み合わせた機能拡張型トランスフォーマーアーキテクチャを提案する。
アラビア語では、AraELECTRAに、部分音声(POS)タグとTF-IDF機能を付加し、他の言語では、ゲーティング機構によってTF-IDF機能を組み込んだクロスリンガルDeBERTa~V3モデルを微調整した。
モノリンガル,多言語,ゼロショット設定で,英語,アラビア語,ドイツ語,イタリア語,およびいくつかの未知言語を含む複数の言語で評価を行った。
その結果、英語の単言語設定(マクロF1=0.8052で1位)、ドイツ語(マクロF1=0.8013で3位)、アラビア語(マクロF1=0.5771で4位)、ルーマニア語(マクロF1=0.8126で1位)において、ゼロショット設定で1位(マクロF1=0.8126で1位)である。
また,TF-IDFの特徴をゲーティング機構と組み合わせることの重要性と,主観性検出のための言語間移動が重要であることを示すアブレーション解析を行った。
さらに,言語間微調整の順序と訓練言語の言語的近接性の両方に対するモデルの感度を明らかにする。
関連論文リスト
- Causal Language Control in Multilingual Transformers via Sparse Feature Steering [3.790013563494571]
マルチ言語モデルの生成言語を操るために,スパースオートエンコーダの機能を活用できるかどうかを検討する。
我々は、FastText言語分類によって測定された、最大90%の成功で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中間から後期のトランスフォーマー層において最も効果的であることが判明した。
論文 参考訳(メタデータ) (2025-07-17T06:49:16Z) - AI Wizards at CheckThat! 2025: Enhancing Transformer-Based Embeddings with Sentiment for Subjectivity Detection in News Articles [0.0]
本稿では, CLEF 2025 CheckThat! Lab Task 1: Subjectivity Detection in News Articlesについて紹介する。
ニュース記事における主観性検出は、文章を単言語、多言語、ゼロショット設定で主観的/客観的に分類する。
訓練・開発データセットはアラビア語、ドイツ語、英語、イタリア語、ブルガリア語に提供され、最終的な評価には一般化を評価するための未確認言語(ギリシャ語、ルーマニア語、ポーランド語、ウクライナ語)が含まれていた。
実験の結果,感情機能統合は,特に主観的F1スコアを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-15T22:10:20Z) - LuxVeri at GenAI Detection Task 1: Inverse Perplexity Weighted Ensemble for Robust Detection of AI-Generated Text across English and Multilingual Contexts [0.8495482945981923]
本稿では,AI生成コンテンツの検出に関するコリング2025ワークショップのタスク1のために開発されたシステムについて述べる。
提案手法では,各モデルの逆パープレキシティに応じて重みが割り当てられたモデルのアンサンブルを利用して,分類精度を向上させる。
本研究は, 単言語と多言語の両方において, 機械によるテキスト検出の堅牢性を向上させるために, 逆パープレキシティ重み付けの有効性を示すものである。
論文 参考訳(メタデータ) (2025-01-21T06:32:32Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。