論文の概要: Cross-lingual Opinions and Emotions Mining in Comparable Documents
- arxiv url: http://arxiv.org/abs/2508.03112v1
- Date: Tue, 05 Aug 2025 05:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.804344
- Title: Cross-lingual Opinions and Emotions Mining in Comparable Documents
- Title(参考訳): 比較可能な文書における言語間意見と感情マイニング
- Authors: Motaz Saad, David Langlois, Kamel Smaili,
- Abstract要約: 本研究は、英語とアラビア語に匹敵する文書における感情と感情の相違について研究する。
我々は、英語のWordNet-Affect(WNA)レキシコンをアラビア語に手動で翻訳し、それに匹敵するコーパスをラベル付けするバイリンガル感情レキシコンを作成する。
その結果、感情と感情のアノテーションは、記事が同一の報道機関から来たときに一致し、異なる記事から来たときに発散することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparable texts are topic-aligned documents in multiple languages that are not direct translations. They are valuable for understanding how a topic is discussed across languages. This research studies differences in sentiments and emotions across English-Arabic comparable documents. First, texts are annotated with sentiment and emotion labels. We apply a cross-lingual method to label documents with opinion classes (subjective/objective), avoiding reliance on machine translation. To annotate with emotions (anger, disgust, fear, joy, sadness, surprise), we manually translate the English WordNet-Affect (WNA) lexicon into Arabic, creating bilingual emotion lexicons used to label the comparable corpora. We then apply a statistical measure to assess the agreement of sentiments and emotions in each source-target document pair. This comparison is especially relevant when the documents originate from different sources. To our knowledge, this aspect has not been explored in prior literature. Our study includes English-Arabic document pairs from Euronews, BBC, and Al-Jazeera (JSC). Results show that sentiment and emotion annotations align when articles come from the same news agency and diverge when they come from different ones. The proposed method is language-independent and generalizable to other language pairs.
- Abstract(参考訳): 比較可能なテキストは、直接翻訳しない複数の言語でトピック対応の文書である。
トピックが言語間でどのように議論されるかを理解するのに価値がある。
本研究は、英語とアラビア語に匹敵する文書における感情と感情の相違について研究する。
まず、テキストは感情ラベルと感情ラベルで注釈付けされる。
本稿では,機械翻訳への依存を避けるために,意見クラス(目的/目的)を用いた文書のラベル付けに言語横断手法を適用した。
感情(怒り、嫌悪感、恐怖、喜び、悲しみ、驚き)に注釈を付けるために、英語のWordNet-Affect(WNA)レキシコンをアラビア語に手作業で翻訳し、同等のコーパスをラベル付けするために使われるバイリンガル感情レキシコンを作成します。
次に、各ソースターゲット文書対における感情と感情の一致を評価する統計的尺度を適用した。
この比較は、文書が異なる情報源に由来する場合に特に関係がある。
我々の知る限りでは、この側面は以前の文献では研究されていない。
調査対象はEuronews, BBC, Al-Jazeera (JSC) の英語とアラビア語の文書ペアである。
その結果、感情と感情のアノテーションは、記事が同一の報道機関から来たときに一致し、異なる記事から来たときに発散することがわかった。
提案手法は言語に依存しず,他の言語対に対して一般化可能である。
関連論文リスト
- Building and Aligning Comparable Corpora [0.0]
比較可能なコーパス(Comparable corpus)は、複数の言語におけるトピックに沿ったドキュメントの集合である。
ウィキペディア百科事典とEURONEWSのウェブサイトから、英語、フランス語、アラビア語で同等のコーパスを構築する方法を提案する。
また,言語間類似度尺度を用いて,同等の文書を自動的に整合させる手法の実験を行った。
論文 参考訳(メタデータ) (2025-08-04T16:05:36Z) - SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。
データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。
参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文 参考訳(メタデータ) (2025-03-10T12:49:31Z) - BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - You Shall Know a Tool by the Traces it Leaves: The Predictability of Sentiment Analysis Tools [74.98850427240464]
感情分析ツールが同じデータセットで一致しないことを示す。
感傷的アノテーションに使用される感情ツールは,その結果から予測できることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:27:38Z) - MELD-ST: An Emotion-aware Speech Translation Dataset [29.650945917540316]
本稿では,感情認識型音声翻訳タスクのためのMELD-STデータセットについて述べる。
各言語ペアには、MELDデータセットからの感情ラベルを付加した約10,000の発話が含まれている。
データセット上のSeamlessM4Tモデルを用いたベースライン実験は、感情ラベルによる微調整によって、いくつかの環境での翻訳性能が向上することを示している。
論文 参考訳(メタデータ) (2024-05-21T22:40:38Z) - What is Sentiment Meant to Mean to Language Models? [0.0]
センチメント(sentiment)は、使用するドメインやツールによって、さまざまな概念を包含する。
感覚」は、感情、意見、市場の動き、あるいは単に一般の善悪の次元を意味するために使われてきた。
論文 参考訳(メタデータ) (2024-05-03T19:37:37Z) - English Prompts are Better for NLI-based Zero-Shot Emotion
Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。
自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文 参考訳(メタデータ) (2024-02-05T17:36:19Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Multilingual Contextual Affective Analysis of LGBT People Portrayals in
Wikipedia [34.183132688084534]
物語文における特定の語彙選択は、物語の中の人々に対する作家の態度を反映し、聴衆の反応に影響を与える。
言語や文化によって単語の意味がどう異なるかを示し、既存の英語データセットを一般化することの難しさを浮き彫りにしている。
次に、LGBTコミュニティのメンバーのウィキペディアの伝記ページを3つの言語で分析することで、本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-10-21T08:27:36Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。