論文の概要: Multilingual Sentiment Analysis of Summarized Texts: A Cross-Language Study of Text Shortening Effects
- arxiv url: http://arxiv.org/abs/2504.00265v1
- Date: Mon, 31 Mar 2025 22:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:00.721313
- Title: Multilingual Sentiment Analysis of Summarized Texts: A Cross-Language Study of Text Shortening Effects
- Title(参考訳): 要約テキストの多言語感性分析:テキスト短縮効果のクロスランゲージスタディ
- Authors: Mikhail Krasitskii, Grigori Sidorov, Olga Kolesnikova, Liliana Chanona Hernandez, Alexander Gelbukh,
- Abstract要約: 要約は様々な形態を持つ言語における感情分析に大きな影響を及ぼす。
本研究では,英語,ドイツ語,フランス語,スペイン語,イタリア語,フィンランド語,ハンガリー語,アラビア語の感情分類における抽出的,抽象的要約効果について検討した。
- 参考スコア(独自算出の注目度): 42.90274643419224
- License:
- Abstract: Summarization significantly impacts sentiment analysis across languages with diverse morphologies. This study examines extractive and abstractive summarization effects on sentiment classification in English, German, French, Spanish, Italian, Finnish, Hungarian, and Arabic. We assess sentiment shifts post-summarization using multilingual transformers (mBERT, XLM-RoBERTa, T5, and BART) and language-specific models (FinBERT, AraBERT). Results show extractive summarization better preserves sentiment, especially in morphologically complex languages, while abstractive summarization improves readability but introduces sentiment distortion, affecting sentiment accuracy. Languages with rich inflectional morphology, such as Finnish, Hungarian, and Arabic, experience greater accuracy drops than English or German. Findings emphasize the need for language-specific adaptations in sentiment analysis and propose a hybrid summarization approach balancing readability and sentiment preservation. These insights benefit multilingual sentiment applications, including social media monitoring, market analysis, and cross-lingual opinion mining.
- Abstract(参考訳): 要約は様々な形態を持つ言語における感情分析に大きな影響を及ぼす。
本研究では,英語,ドイツ語,フランス語,スペイン語,イタリア語,フィンランド語,ハンガリー語,アラビア語の感情分類における抽出的,抽象的要約効果について検討した。
多言語変換器 (mBERT, XLM-RoBERTa, T5, BART) と言語固有モデル (FinBERT, AraBERT) を用いて, 要約後の感情変化を評価する。
その結果、抽出的要約は、特に形態学的に複雑な言語において感情を保存しやすくし、抽象的要約は可読性を向上するが、感情の歪みを生じさせ、感情の精度に影響を及ぼすことが示された。
フィンランド語、ハンガリー語、アラビア語などの豊富な屈折形態を持つ言語は、英語やドイツ語よりも精度が低下している。
発見は、感情分析における言語固有の適応の必要性を強調し、読みやすさと感情保存のバランスをとるハイブリッド要約アプローチを提案する。
これらの洞察は、ソーシャルメディアの監視、市場分析、言語横断的な意見マイニングなど、多言語感情の応用に有用である。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Comparative Approaches to Sentiment Analysis Using Datasets in Major European and Arabic Languages [42.90274643419224]
本研究では,多言語感情分析のための変換器モデルであるBERT,mBERT,XLM-Rについて検討する。
主な貢献は、形態学的に複雑な言語におけるXLM-Rの優れた適応性の同定であり、精度は88%以上である。
論文 参考訳(メタデータ) (2025-01-21T23:11:16Z) - Entropy and type-token ratio in gigaword corpora [0.0]
語彙の多様性はタイプトケン比とエントロピーで特徴づけられる。
英語,スペイン語,トルコ語の6つの大規模言語データセットにおける多様性指標について検討した。
与えられたコーパスと言語のテキストのエントロピーとタイプトケン比の実証的機能関係を明らかにした。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Sentiment Analysis Across Languages: Evaluation Before and After Machine Translation to English [0.0]
本稿では,機械翻訳を行った多言語データセットおよびテキストを対象とした感性分析タスクにおけるトランスフォーマーモデルの性能について検討する。
異なる言語文脈におけるこれらのモデルの有効性を比較することで、それらの性能変化と様々な言語における感情分析の潜在的な影響について洞察を得ることができる。
論文 参考訳(メタデータ) (2024-05-05T10:52:09Z) - Exploring Tokenization Strategies and Vocabulary Sizes for Enhanced Arabic Language Models [0.0]
本稿では,アラビア語モデルの性能に及ぼすトークン化戦略と語彙サイズの影響について検討する。
本研究は, 語彙サイズがモデルサイズを一定に保ちながら, モデル性能に及ぼす影響を限定的に明らかにした。
論文のレコメンデーションには、方言の課題に対処するためのトークン化戦略の洗練、多様な言語コンテキストにわたるモデルの堅牢性の向上、リッチな方言ベースのアラビア語を含むデータセットの拡大が含まれる。
論文 参考訳(メタデータ) (2024-03-17T07:44:44Z) - Ensemble Language Models for Multilingual Sentiment Analysis [0.0]
SemEval-17のツイートテキストとアラビアセンティメントのつぶやきデータセットの感情分析について検討する。
その結果,単言語モデルでは性能が優れ,アンサンブルモデルではベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-03-10T01:39:10Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Pragmatic information in translation: a corpus-based study of tense and
mood in English and German [70.3497683558609]
文法的時制とムードは自然言語処理(NLP)研究において考慮すべき重要な言語現象である。
我々は翻訳における英語とドイツ語の時制とムードの対応について考察する。
特に重要なのは、ルールベース、フレーズベース統計およびニューラルマシン翻訳における時制とムードをモデル化することである。
論文 参考訳(メタデータ) (2020-07-10T08:15:59Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。