論文の概要: Comparative Approaches to Sentiment Analysis Using Datasets in Major European and Arabic Languages
- arxiv url: http://arxiv.org/abs/2501.12540v1
- Date: Tue, 21 Jan 2025 23:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:14.626244
- Title: Comparative Approaches to Sentiment Analysis Using Datasets in Major European and Arabic Languages
- Title(参考訳): 主要ヨーロッパ語とアラビア語におけるデータセットを用いた感性分析の比較
- Authors: Mikhail Krasitskii, Olga Kolesnikova, Liliana Chanona Hernandez, Grigori Sidorov, Alexander Gelbukh,
- Abstract要約: 本研究では,多言語感情分析のための変換器モデルであるBERT,mBERT,XLM-Rについて検討する。
主な貢献は、形態学的に複雑な言語におけるXLM-Rの優れた適応性の同定であり、精度は88%以上である。
- 参考スコア(独自算出の注目度): 42.90274643419224
- License:
- Abstract: This study explores transformer-based models such as BERT, mBERT, and XLM-R for multi-lingual sentiment analysis across diverse linguistic structures. Key contributions include the identification of XLM-R superior adaptability in morphologically complex languages, achieving accuracy levels above 88%. The work highlights fine-tuning strategies and emphasizes their significance for improving sentiment classification in underrepresented languages.
- Abstract(参考訳): 本研究では,多様な言語構造を対象とした多言語感情分析のための変換器モデルであるBERT,mBERT,XLM-Rについて検討する。
主な貢献は、形態学的に複雑な言語におけるXLM-Rの優れた適応性の同定であり、精度は88%以上である。
この作品は微調整戦略を強調し、表現不足言語における感情分類を改善することの重要性を強調している。
関連論文リスト
- Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - Beyond Data Quantity: Key Factors Driving Performance in Multilingual Language Models [1.5703073293718952]
モデル性能を向上させるために、事前訓練データとモデルサイズとともに、重要な要因としてのトーケン類似性と国間類似性を考察した。
これらの洞察は、より公平で効果的な多言語言語モデルを開発するための貴重なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-17T03:05:26Z) - Qtok: A Comprehensive Framework for Evaluating Multilingual Tokenizer Quality in Large Language Models [0.0]
トークン化の品質は、モデルが多様な言語を効果的に扱う能力に大きな影響を及ぼす可能性がある。
Qtokは、多言語環境でのパフォーマンスに特に重点を置いて、トークン化ツールの品質を評価するために設計されたツールである。
Qtokはこれらのメトリクスを適用して、58の公開モデルから13の異なるトークン化子を評価し、異なる言語コンテキストでアウトプットを分析する。
論文 参考訳(メタデータ) (2024-10-16T19:34:34Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Exploring Multilingual Probing in Large Language Models: A Cross-Language Analysis [20.79017989484242]
大規模言語モデル(LLM)の探索技術は主に英語に焦点を合わせており、世界の言語の大部分を見下ろしている。
複数のオープンソースのLCMモデルで実験を行い、探索精度、層間の傾向、および複数の言語に対する探索ベクトル間の類似性を解析した。
論文 参考訳(メタデータ) (2024-09-22T14:14:05Z) - Comparative Analysis of Multilingual Text Classification &
Identification through Deep Learning and Embedding Visualization [0.0]
この研究では、17の言語を含むデータセットにLangDetect、LangId、FastText、Sentence Transformerを採用している。
FastText多層パーセプトロンモデルは、精度、精度、リコール、F1スコアを達成し、Sentence Transformerモデルを上回った。
論文 参考訳(メタデータ) (2023-12-06T12:03:27Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。