論文の概要: How do Language Models Generate Slang: A Systematic Comparison between Human and Machine-Generated Slang Usages
- arxiv url: http://arxiv.org/abs/2509.15518v1
- Date: Fri, 19 Sep 2025 01:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.957999
- Title: How do Language Models Generate Slang: A Systematic Comparison between Human and Machine-Generated Slang Usages
- Title(参考訳): 言語モデルがスラングを生成する方法:人間と機械生成スラングの体系的比較
- Authors: Siyang Wu, Zhewei Sun,
- Abstract要約: Slangは、一般的に使われる非公式言語の一種であり、NLPシステムに挑戦している。
大規模言語モデル(LLM)の最近の進歩により、この問題はより親しみやすくなっている。
オンラインスラング辞書 (OSD) と GPT-4o と Llama-3 が生成するスラングを比較検討した。
- 参考スコア(独自算出の注目度): 2.887631096209473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slang is a commonly used type of informal language that poses a daunting challenge to NLP systems. Recent advances in large language models (LLMs), however, have made the problem more approachable. While LLM agents are becoming more widely applied to intermediary tasks such as slang detection and slang interpretation, their generalizability and reliability are heavily dependent on whether these models have captured structural knowledge about slang that align well with human attested slang usages. To answer this question, we contribute a systematic comparison between human and machine-generated slang usages. Our evaluative framework focuses on three core aspects: 1) Characteristics of the usages that reflect systematic biases in how machines perceive slang, 2) Creativity reflected by both lexical coinages and word reuses employed by the slang usages, and 3) Informativeness of the slang usages when used as gold-standard examples for model distillation. By comparing human-attested slang usages from the Online Slang Dictionary (OSD) and slang generated by GPT-4o and Llama-3, we find significant biases in how LLMs perceive slang. Our results suggest that while LLMs have captured significant knowledge about the creative aspects of slang, such knowledge does not align with humans sufficiently to enable LLMs for extrapolative tasks such as linguistic analyses.
- Abstract(参考訳): Slangは、一般的に使われる非公式言語の一種であり、NLPシステムに挑戦している。
しかし、大規模言語モデル(LLM)の最近の進歩により、この問題はより親しみやすくなっている。
LLMエージェントは、スラング検出やスラング解釈といった仲介業務に広く適用されているが、それらの一般化可能性と信頼性は、スラングに関する構造的知識が人間の証明されたスラング使用法とよく一致しているかどうかに大きく依存している。
そこで本研究では,人間のスラング使用法と機械によるスラング使用法を体系的に比較する。
私たちの評価フレームワークは3つの中核的な側面に焦点を当てています。
1)機械がスラングを知覚する方法における系統的バイアスを反映した使用法の特徴
2 語彙貨幣及びスラング使用による語再利用の両面に反映された創造性及び
3) モデル蒸留の金標準例としてスラングを用いた場合のインフォーマル性について検討した。
オンラインスラング辞書 (OSD) と GPT-4o と Llama-3 で生成されたスラングを比較した結果, LLM がスラングをどう知覚するかに有意なバイアスが認められた。
以上の結果から,LLMはスラングの創造的側面について重要な知識を掴んでいるが,言語解析などの外挿作業にLLMを有効化するためには,そのような知識は人間と十分に一致していないことが示唆された。
関連論文リスト
- SlangDIT: Benchmarking LLMs in Interpretative Slang Translation [89.48208612476068]
本稿では,スラング翻訳タスク(SlangDIT)を紹介する。
言語間スラング検出、言語間スラング説明、現在のコンテキスト内のスラング翻訳の3つのサブタスクで構成されている。
まず、文にスラングが含まれているかどうかを識別し、スラングが多義的かどうかを判断し、その意味を解析する。
論文 参考訳(メタデータ) (2025-05-20T10:37:34Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Toward Informal Language Processing: Knowledge of Slang in Large Language Models [16.42982896928428]
我々は,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築した。
評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。
GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。
論文 参考訳(メタデータ) (2024-04-02T21:50:18Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - A Study of Slang Representation Methods [3.511369967593153]
我々は,スラング理解に依存した様々な下流タスクに対して,表現学習モデルと知識資源の異なる組み合わせについて検討する。
誤り解析では、語彙外単語、多意味性、分散性、アノテーションの不一致など、スラング表現学習における中核的な課題を識別する。
論文 参考訳(メタデータ) (2022-12-11T21:56:44Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Machine Reading, Fast and Slow: When Do Models "Understand" Language? [59.897515617661874]
本稿では,2つの言語スキル(コア参照の解決と比較)に関して,理解モデルを読み取る行動について検討する。
比較のため(コアではない)、より大きなエンコーダに基づくシステムは、より「正しい」情報に依存する傾向にあることがわかった。
論文 参考訳(メタデータ) (2022-09-15T16:25:44Z) - Semantically Informed Slang Interpretation [2.9097456604613745]
本稿では,クエリスラングに対する候補解釈の文脈的,意味的適切性を考慮した意味情報付きスラング解釈(SSI)フレームワークを提案する。
我々は、スラングの機械翻訳を英語から他の言語に拡張するために、同じフレームワークをいかに適用できるかを示す。
論文 参考訳(メタデータ) (2022-05-02T01:51:49Z) - A Computational Framework for Slang Generation [2.1813490315521773]
我々は、スラングコンテキストにおける話者の単語選択をモデル化するフレームワークを開発することにより、スラングの機械生成に向けた最初の一歩を踏み出した。
本フレームワークは,従来の単語のスラング感覚とスラング感覚を関連付けることで,新しいスラングの意味を符号化する。
我々は3つのスラング辞書に対して厳密な評価を行い、我々のアプローチが最先端の言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2021-02-03T01:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。