論文の概要: RoIt-XMASA: Multi-Domain Multilingual Sentiment Analysis Dataset for Romanian and Italian
- arxiv url: http://arxiv.org/abs/2604.17134v1
- Date: Sat, 18 Apr 2026 20:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.351381
- Title: RoIt-XMASA: Multi-Domain Multilingual Sentiment Analysis Dataset for Romanian and Italian
- Title(参考訳): RoIt-XMASA:ルーマニア語とイタリア語のマルチドメイン多言語感性分析データセット
- Authors: Andrei-Marius Avram, Aureliu Valentin Antonie, Cosmin-Mircea Croitoru, Vlad Andrei Muntean, Dumitru-Clementin Cercel,
- Abstract要約: RoIt-XMASAは、クロスプラットフォームのマルチドメインAmazon Sentiment Analysisをイタリア語とルーマニア語に拡張した多言語データセットである。
メタ学習係数による損失逆転を利用した多目的逆行学習フレームワークを提案する。
Llama-3.1-8Bは58.43%のF1スコアを達成し、プロンプトベースのアプローチの効率とタスク固有の微調整の性能の間に有意義なトレードオフがあることを示した。
- 参考スコア(独自算出の注目度): 2.294953003828613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present RoIt-XMASA, a multilingual dataset that extends the Cross-lingual Multi-domain Amazon Sentiment Analysis to Italian and Romanian, comprising 36,000 labeled reviews across three domains (books, movies, and music) and 202,141 unlabeled samples. To address cross-lingual and cross-domain challenges, we propose a multi-target adversarial training framework that employs loss reversal with meta-learned coefficients to dynamically balance sentiment discrimination with domain and language invariance. XLM-R achieves an F1-score of 66.23% with our approach, outperforming the baseline by 4.64%. Few-shot evaluation shows that Llama-3.1-8B achieves 58.43% F1-score, revealing a meaningful trade-off between the efficiency of prompting-based approaches and the higher performance of task-specific fine-tuning.
- Abstract(参考訳): Amazon Sentiment Analysisをイタリア語とルーマニア語に拡張した多言語データセットであるRoIt-XMASAを,3つのドメイン(書籍,映画,音楽)に36,000のラベル付きレビューと202,141のラベルなしサンプルからなる。
言語間およびドメイン間の課題に対処するため,メタ学習係数による損失逆転を利用した多目的逆行学習フレームワークを提案する。
XLM-RのF1スコアは66.23%で、ベースラインを4.64%上回る。
Llama-3.1-8Bは58.43%のF1スコアを達成し、プロンプトベースのアプローチの効率とタスク固有の微調整の性能の間に有意義なトレードオフがあることを示した。
関連論文リスト
- FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition [12.125413756152833]
教師/学生のパラダイムを91言語と25のスクリプトに拡張するデータセット生成パイプラインであるFiNERwebを紹介した。
FineWeb-Edu 上に構築した手法では,回帰モデルを用いて NER 関連パスを識別し,多言語 LLM でアノテートする。
実験の結果, 回帰モデルは84F1以上を達成でき, また, FiNERwebでトレーニングしたモデルでは, ゼロショット転送設定で同等あるいは改善された性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-12-15T20:36:39Z) - XplaiNLP at CheckThat! 2025: Multilingual Subjectivity Detection with Finetuned Transformers and Prompt-Based Inference with Large Language Models [2.749729059235755]
このノートには、XplaiがCheckThat!に提出されたことを報告しています。
単言語および機械翻訳によるトレーニングデータに基づいて,変換器エンコーダの教師付き微調整,EuroBERT,XLM-RoBERTa,ジャーマン-BERTの2つの手法を評価する。
ドイツ語の場合、タイポロジーに関連のある言語から翻訳されたトレーニングデータに基づいて微調整されたドイツ語-BERTモデルでは、ベースライン上での競争性能が向上する。
論文 参考訳(メタデータ) (2025-09-15T16:53:41Z) - Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training [57.62126373849383]
CrossIC-PT(クロスランガル・イン・コンテクスト・プレトレーニング)は、クロスランガル・トランスファーを強化するシンプルでスケーラブルなアプローチである。
セマンティック関連のバイリンガルウィキペディア文書を1つのコンテキストウィンドウにインターリーブすることで、CrossIC-PTサンプルを構築する。
実験の結果、CrossIC-PTは6つの対象言語にわたる3つのモデルの多言語性能を改善することが示された。
論文 参考訳(メタデータ) (2025-04-29T07:24:25Z) - Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [29.62231663945077]
本稿では,並列文のみを必要とする軽量な評価タスクである言語間セマンティック識別(D)と,対向的気晴らしを生成するLarge Language Model(LLM)を導入する。
CLSDは、意味的に誤解を招くが、語彙的に類似した代替品の上に、真の並列文をランク付けする埋め込みモデルの能力を測定する。
我々の実験では、検索タスクに微調整されたモデルは、英語をピボットすることの恩恵を受ける一方、bitextマイニングモデルは、直接言語間設定で最高のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - XQA-DST: Multi-Domain and Multi-Lingual Dialogue State Tracking [23.945407948894967]
ニューラルリーディング理解手法を用いて,多言語・多言語対話状態トラッカーを提案する。
提案手法は,対話自体から値が抽出されるスパン予測を用いてスロット値を満たす。
5つのドメインに対して平均31.6%のJGAを持つMultiWOZ 2.1上でのゼロショットドメイン適応実験による競合転送性を示す。
論文 参考訳(メタデータ) (2022-04-12T15:45:32Z) - Uncertainty-Aware Balancing for Multilingual and Multi-Domain Neural
Machine Translation Training [58.72619374790418]
MultiUATはモデルの不確実性に基づいてトレーニングデータの使用量を動的に調整する。
クロスドメイン転送を解析し、静的および類似性に基づく手法の欠如を示す。
論文 参考訳(メタデータ) (2021-09-06T08:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。