論文の概要: Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts
- arxiv url: http://arxiv.org/abs/2403.16614v1
- Date: Mon, 25 Mar 2024 10:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:08:28.641849
- Title: Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts
- Title(参考訳): 危機関連ソーシャルメディアテキストのための意味豊かな言語間文埋め込み
- Authors: Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera,
- Abstract要約: 危機関連ソーシャルメディアテキストのセマンティック検索やクラスタリングなどのタスクは、危機談話の理解を深める。
事前訓練された言語モデルは危機情報学において高度な性能を持つが、文脈埋め込みには意味のある意味が欠けている。
本稿では,危機関連ソーシャルメディアテキストを50以上の言語に埋め込んだ多言語文エンコーダを提案する。
- 参考スコア(独自算出の注目度): 3.690904966341072
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Tasks such as semantic search and clustering on crisis-related social media texts enhance our comprehension of crisis discourse, aiding decision-making and targeted interventions. Pre-trained language models have advanced performance in crisis informatics, but their contextual embeddings lack semantic meaningfulness. Although the CrisisTransformers family includes a sentence encoder to address the semanticity issue, it remains monolingual, processing only English texts. Furthermore, employing separate models for different languages leads to embeddings in distinct vector spaces, introducing challenges when comparing semantic similarities between multi-lingual texts. Therefore, we propose multi-lingual sentence encoders (CT-XLMR-SE and CT-mBERT-SE) that embed crisis-related social media texts for over 50 languages, such that texts with similar meanings are in close proximity within the same vector space, irrespective of language diversity. Results in sentence encoding and sentence matching tasks are promising, suggesting these models could serve as robust baselines when embedding multi-lingual crisis-related social media texts. The models are publicly available at: https://huggingface.co/crisistransformers.
- Abstract(参考訳): 危機関連ソーシャルメディアテキストのセマンティック検索やクラスタリングなどのタスクは、危機談話の理解を高め、意思決定を支援し、ターゲットとした介入を支援します。
事前訓練された言語モデルは危機情報学において高度な性能を持つが、文脈埋め込みには意味のある意味が欠けている。
CrisisTransformersファミリーは意味論の問題に対処するための文エンコーダを含んでいるが、単言語であり、英語のテキストのみを処理する。
さらに、異なる言語に別々のモデルを適用することで、異なるベクトル空間に埋め込み、多言語テキスト間の意味的類似性を比較する際の課題を提起する。
そこで本稿では,50言語以上の危機関連ソーシャルメディアテキストを組み込んだ多言語文エンコーダ(CT-XLMR-SEとCT-mBERT-SE)を提案する。
文エンコーディングと文マッチングタスクの結果は有望であり、多言語危機関連ソーシャルメディアテキストを埋め込む際には、これらのモデルが堅牢なベースラインとして機能する可能性があることを示唆している。
モデルは、https://huggingface.co/crisistransformers.comで公開されている。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts [3.690904966341072]
ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を担っているが、危機に関連するソーシャルメディアのテキストを分析することは、その非公式な性質のため困難である。
本研究では,事前訓練された言語モデルと文エンコーダのアンサンブルであるCrisisTransformersを紹介した。
論文 参考訳(メタデータ) (2023-09-11T14:36:16Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Research on Multilingual News Clustering Based on Cross-Language Word
Embeddings [7.401514098389491]
中国語と英語の両方で文レベルのバイリンガルテキストを表現できる知識蒸留を用いて言語間モデルを訓練する。
我々は、ニュースコンテキストにシングルパスクラスタリングアルゴリズムを適用し、より適用できるようにする。
論文 参考訳(メタデータ) (2023-05-30T09:24:55Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - InfoCTM: A Mutual Information Maximization Perspective of Cross-Lingual Topic Modeling [40.54497836775837]
言語間トピックモデルは、一致した潜在トピックを明らかにすることによって、言語間テキスト分析において一般的である。
既存のほとんどの手法は、低被覆辞書によるさらなる分析と性能低下を妨げる反復的なトピックの生成に悩まされている。
本稿では,相互情報を用いた多言語トピックモデリング(InfoCTM)を提案する。
論文 参考訳(メタデータ) (2023-04-07T08:49:43Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。