論文の概要: SMILE: Evaluation and Domain Adaptation for Social Media Language
Understanding
- arxiv url: http://arxiv.org/abs/2307.00135v1
- Date: Fri, 30 Jun 2023 21:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:53:07.917347
- Title: SMILE: Evaluation and Domain Adaptation for Social Media Language
Understanding
- Title(参考訳): SMILE:ソーシャルメディア言語理解のための評価とドメイン適応
- Authors: Vasilisa Bashlovkina, Riley Matthews, Zhaobin Kuang, Simon
Baumgartner, Michael Bendersky
- Abstract要約: ソーシャルメディア言語と従来の言語との違いの程度を定量化する。
ソーシャルメディアと従来の言語を併用して,トークンの学習と事前学習を行うことで,SMILEスコアの4.2ポイントにおいて,最も優れた類似の代替品よりも優れたLMが得られることを示す。
- 参考スコア(独自算出の注目度): 11.50439215328379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the ability of transformer-based language models (LMs) to understand
social media language. Social media (SM) language is distinct from standard
written language, yet existing benchmarks fall short of capturing LM
performance in this socially, economically, and politically important domain.
We quantify the degree to which social media language differs from conventional
language and conclude that the difference is significant both in terms of token
distribution and rate of linguistic shift. Next, we introduce a new benchmark
for Social MedIa Language Evaluation (SMILE) that covers four SM platforms and
eleven tasks. Finally, we show that learning a tokenizer and pretraining on a
mix of social media and conventional language yields an LM that outperforms the
best similar-sized alternative by 4.2 points on the overall SMILE score.
- Abstract(参考訳): ソーシャルメディア言語を理解するためのトランスフォーマーベース言語モデル(LM)について検討する。
ソーシャルメディア(SM)言語は標準言語とは異なるが、既存のベンチマークでは、この社会的、経済的、政治的に重要な領域におけるLMのパフォーマンスを捉えていない。
ソーシャルメディア言語と従来の言語との違いの程度を定量化し,トークン分布と言語シフト率の両面で差が重要であると結論付けた。
次に、4つのSMプラットフォームと11のタスクをカバーするSocial MedIa Language Evaluation(SMILE)のベンチマークを紹介する。
最後に,コントラクタの学習とソーシャルメディアと従来の言語の組み合わせによる事前学習により,SMILEスコアの4.2ポイントにおいて,最も優れた類似サイズの代替品よりも優れたLMが得られることを示す。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Interpretability of Language Models via Task Spaces [14.543168558734001]
本稿では,解釈言語モデル (LM) の代替手法を提案する。
我々は、LM処理の品質に焦点を合わせ、言語能力に焦点をあてる。
言語現象間の関係を照らす「言語的タスク空間」を構築した。
論文 参考訳(メタデータ) (2024-06-10T16:34:30Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文 参考訳(メタデータ) (2023-08-20T21:30:34Z) - Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark [14.922083834969323]
大規模言語モデル(LLM)は、様々な構文、談話、推論タスクでうまく機能することが示されている。
我々は、社会知識をテストする58のNLPタスクを含む理論駆動型ベンチマーク「SocKET」を導入する。
論文 参考訳(メタデータ) (2023-05-24T09:21:06Z) - BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for
Text Generation [89.41378346080603]
この研究は、PLMに基づくメトリクスにおける社会バイアスに関する最初の体系的研究である。
PLMをベースとした一般的な指標は,従来の6つの属性の指標よりも社会的偏見が著しく高いことが実証された。
さらに, PLM層に注入される脱バイアスアダプタを開発し, テキスト生成の評価に高い性能を維持しながら, PLMベースのメトリクスのバイアスを軽減する。
論文 参考訳(メタデータ) (2022-10-14T08:24:11Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - LMSOC: An Approach for Socially Sensitive Pretraining [4.857837729560728]
本稿では,大規模言語モデルの学習表現に話者社会コンテキストを組み込むための,シンプルで効果的な手法を提案する。
提案手法はまず,まずグラフ表現学習アルゴリズムを用いて社会的文脈の密集表現を学習し,次にこれらの社会的文脈表現で事前学習する素数言語モデルを学習する。
論文 参考訳(メタデータ) (2021-10-20T00:10:37Z) - Improved Multilingual Language Model Pretraining for Social Media Text
via Translation Pair Prediction [1.14219428942199]
ソーシャルメディアコーパス上でmBERTのゼロショット多言語移動を改善するための簡単なアプローチを評価する。
提案手法は,ソースターゲット言語間の翻訳へのアクセスを前提としている。
英語からヒンディー語,アラビア語,日本語へのゼロショット移行において,mBERT単独でのTPP事前訓練の改善を示す。
論文 参考訳(メタデータ) (2021-10-20T00:06:26Z) - X-METRA-ADA: Cross-lingual Meta-Transfer Learning Adaptation to Natural
Language Understanding and Question Answering [55.57776147848929]
自然言語理解のための言語横断型メタトランシュファー学習アプローチX-METRA-ADAを提案する。
我々のアプローチは、最適化に基づくメタ学習アプローチであるMAMLに適応し、新しい言語に適応することを学ぶ。
提案手法は難易度の高い微調整に優れており,ほとんどの言語において両タスクの競合性能に到達していることを示す。
論文 参考訳(メタデータ) (2021-04-20T00:13:35Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。