論文の概要: A Study of Slang Representation Methods
- arxiv url: http://arxiv.org/abs/2212.05613v1
- Date: Sun, 11 Dec 2022 21:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 14:58:44.312779
- Title: A Study of Slang Representation Methods
- Title(参考訳): スラング表現法に関する研究
- Authors: Aravinda Kolla, Filip Ilievski, H\^ong-\^An Sandlin and Alain Mermoud
- Abstract要約: 我々は,スラング理解に依存した様々な下流タスクに対して,表現学習モデルと知識資源の異なる組み合わせについて検討する。
誤り解析では、語彙外単語、多意味性、分散性、アノテーションの不一致など、スラング表現学習における中核的な課題を識別する。
- 参考スコア(独自算出の注目度): 3.511369967593153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Warning: this paper contains content that may be offensive or upsetting.
Considering the large amount of content created online by the minute,
slang-aware automatic tools are critically needed to promote social good, and
assist policymakers and moderators in restricting the spread of offensive
language, abuse, and hate speech. Despite the success of large language models
and the spontaneous emergence of slang dictionaries, it is unclear how far
their combination goes in terms of slang understanding for downstream social
good tasks. In this paper, we provide a framework to study different
combinations of representation learning models and knowledge resources for a
variety of downstream tasks that rely on slang understanding. Our experiments
show the superiority of models that have been pre-trained on social media data,
while the impact of dictionaries is positive only for static word embeddings.
Our error analysis identifies core challenges for slang representation
learning, including out-of-vocabulary words, polysemy, variance, and annotation
disagreements, which can be traced to characteristics of slang as a quickly
evolving and highly subjective language.
- Abstract(参考訳): 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。
オンラインコンテンツの大量発生を考えると、slangを意識した自動ツールは社会的利益を促進するために必要不可欠であり、政策立案者やモデレーターが攻撃的言語、虐待、ヘイトスピーチの拡散を制限するのを助ける。
大きな言語モデルの成功とスラング辞書の自然発生にもかかわらず、下流の社会的良いタスクに対するスラング理解の観点から、それらの組み合わせがどこまで進んでいるかは明らかでない。
本稿では,スラング理解に依存した様々な下流タスクに対して,表現学習モデルと知識資源の異なる組み合わせを研究するための枠組みを提供する。
実験の結果,ソーシャルメディア上で事前学習したモデルの方が優れており,辞書の影響は静的な単語埋め込みにのみ肯定的であることがわかった。
我々の誤り分析は,スラング表現学習における中核的な課題を識別するものであり,言語外単語,多節語,分散,アノテーションの不一致など,スラングの特徴を急速に進化し,主観的な言語として捉えることができる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Augmenting semantic lexicons using word embeddings and transfer learning [1.101002667958165]
本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。
評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかである。
論文 参考訳(メタデータ) (2021-09-18T20:59:52Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - A Computational Framework for Slang Generation [2.1813490315521773]
我々は、スラングコンテキストにおける話者の単語選択をモデル化するフレームワークを開発することにより、スラングの機械生成に向けた最初の一歩を踏み出した。
本フレームワークは,従来の単語のスラング感覚とスラング感覚を関連付けることで,新しいスラングの意味を符号化する。
我々は3つのスラング辞書に対して厳密な評価を行い、我々のアプローチが最先端の言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-02-03T01:19:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。