論文の概要: Text Intimacy Analysis using Ensembles of Multilingual Transformers
- arxiv url: http://arxiv.org/abs/2312.02590v1
- Date: Tue, 5 Dec 2023 09:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:15:38.218952
- Title: Text Intimacy Analysis using Ensembles of Multilingual Transformers
- Title(参考訳): 多言語トランスフォーマーのアンサンブルを用いたテキスト親密度解析
- Authors: Tanmay Chavan and Ved Patwardhan
- Abstract要約: 本稿では,SemEval共有タスク9について,テキストの親密度を推定する作業について述べる。
データセットは10言語のツイートで構成されており、トレーニングデータセットで利用できるのは6つのみである。
言語固有の単言語モデルとともに多言語モデルのアンサンブルが最高の性能を持つことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intimacy estimation of a given text has recently gained importance due to the
increase in direct interaction of NLP systems with humans. Intimacy is an
important aspect of natural language and has a substantial impact on our
everyday communication. Thus the level of intimacy can provide us with deeper
insights and richer semantics of conversations. In this paper, we present our
work on the SemEval shared task 9 on predicting the level of intimacy for the
given text. The dataset consists of tweets in ten languages, out of which only
six are available in the training dataset. We conduct several experiments and
show that an ensemble of multilingual models along with a language-specific
monolingual model has the best performance. We also evaluate other data
augmentation methods such as translation and present the results. Lastly, we
study the results thoroughly and present some noteworthy insights into this
problem.
- Abstract(参考訳): 近年,NLPシステムと人間との直接的相互作用の増加により,テキストの親密性評価の重要性が高まっている。
親密性は自然言語の重要な側面であり、日々のコミュニケーションに大きな影響を与えます。
したがって、親密さのレベルは、より深い洞察と会話のよりリッチなセマンティクスを提供することができます。
本稿では,与えられたテキストの親密度を予測するための semeval shared task 9 について述べる。
データセットは10言語のツイートで構成されており、トレーニングデータセットには6つしか使用できない。
複数の実験を行い、言語固有の単言語モデルと共に多言語モデルのアンサンブルが最良の性能を持つことを示す。
また,翻訳などのデータ拡張手法を評価し,その結果を提示する。
最後に,本研究の結果を徹底的に検討し,この問題に対する注目すべき知見を示す。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - Relational Embeddings for Language Independent Stance Detection [4.492444446637856]
本稿では,リレーショナル埋め込みを生成することで,友人やリツイートなどのソーシャル情報を活用する新しい手法を提案する。
我々の手法は手動のチューニングなしに任意の言語やターゲットに適用できる。
論文 参考訳(メタデータ) (2022-10-11T18:13:43Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。