論文の概要: SLAyiNG: Towards Queer Language Processing
- arxiv url: http://arxiv.org/abs/2509.17449v1
- Date: Mon, 22 Sep 2025 07:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.272098
- Title: SLAyiNG: Towards Queer Language Processing
- Title(参考訳): SLAyiNG: クエリ言語処理を目指して
- Authors: Leonor Veloso, Lea Hirlimann, Philipp Wicke, Hinrich Schütze,
- Abstract要約: SLAyiNGは、字幕、ソーシャルメディア投稿、ポッドキャストから派生した注釈付きキースラングを含む最初のデータセットである。
本稿では,スラング用語と定義の収集を含むデータキュレーションプロセスについて述べる。
予備的な結果として,人間のアノテータとOpenAIのモデルo3-miniのアノテータ間合意を計算する。
- 参考スコア(独自算出の注目度): 44.4984082814346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge of slang is a desirable feature of LLMs in the context of user interaction, as slang often reflects an individual's social identity. Several works on informal language processing have defined and curated benchmarks for tasks such as detection and identification of slang. In this paper, we focus on queer slang. Queer slang can be mistakenly flagged as hate speech or can evoke negative responses from LLMs during user interaction. Research efforts so far have not focused explicitly on queer slang. In particular, detection and processing of queer slang have not been thoroughly evaluated due to the lack of a high-quality annotated benchmark. To address this gap, we curate SLAyiNG, the first dataset containing annotated queer slang derived from subtitles, social media posts, and podcasts, reflecting real-world usage. We describe our data curation process, including the collection of slang terms and definitions, scraping sources for examples that reflect usage of these terms, and our ongoing annotation process. As preliminary results, we calculate inter-annotator agreement for human annotators and OpenAI's model o3-mini, evaluating performance on the task of sense disambiguation. Reaching an average Krippendorff's alpha of 0.746, we argue that state-of-the-art reasoning models can serve as tools for pre-filtering, but the complex and often sensitive nature of queer language data requires expert and community-driven annotation efforts.
- Abstract(参考訳): スラングの知識はユーザインタラクションの文脈においてLLMの望ましい特徴であり、スラングは個人の社会的アイデンティティを反映することが多い。
非公式な言語処理に関するいくつかの研究は、スラングの検出や識別といったタスクのためのベンチマークを定義し、キュレートした。
本稿では,クィアスラングに着目した。
Queer slangは誤ってヘイトスピーチとフラグ付けしたり、ユーザインタラクション中にLLMからネガティブな応答を誘発する。
これまでの研究努力は、クィア・スラングに明示的に焦点を当てていない。
特に、高品質なアノテートベンチマークが欠如していることから、queer slangの検出と処理は十分に評価されていない。
このギャップに対処するため、SLAyiNGは、字幕、ソーシャルメディア投稿、ポッドキャストから派生した注釈付きキースラングを含む最初のデータセットで、現実世界の使い方を反映している。
我々は、スラング用語と定義の収集、これらの用語の使用を反映した例のソースのスクラップ化、進行中のアノテーションプロセスを含む、データキュレーションプロセスについて説明する。
予備的な結果として、人間のアノテータとOpenAIのモデルo3-miniのアノテータ間アノテータ合意を算出し、感覚的曖昧さの課題における性能を評価する。
平均的なクリッペンドルフのαは0.746であり、最先端の推論モデルは事前フィルタリングのツールとして機能するが、クイア言語データの複雑で敏感な性質は専門家やコミュニティ主導のアノテーションの努力を必要とする。
関連論文リスト
- How do Language Models Generate Slang: A Systematic Comparison between Human and Machine-Generated Slang Usages [2.887631096209473]
Slangは、一般的に使われる非公式言語の一種であり、NLPシステムに挑戦している。
大規模言語モデル(LLM)の最近の進歩により、この問題はより親しみやすくなっている。
オンラインスラング辞書 (OSD) と GPT-4o と Llama-3 が生成するスラングを比較検討した。
論文 参考訳(メタデータ) (2025-09-19T01:49:27Z) - SlangDIT: Benchmarking LLMs in Interpretative Slang Translation [89.48208612476068]
本稿では,スラング翻訳タスク(SlangDIT)を紹介する。
言語間スラング検出、言語間スラング説明、現在のコンテキスト内のスラング翻訳の3つのサブタスクで構成されている。
まず、文にスラングが含まれているかどうかを識別し、スラングが多義的かどうかを判断し、その意味を解析する。
論文 参考訳(メタデータ) (2025-05-20T10:37:34Z) - ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Sentence [40.4052848203136]
インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
InmpScoreのユーザによる評価を,アウト・オブ・ディストリビューションデータに基づく人間による評価と比較することで検証する。
論文 参考訳(メタデータ) (2024-11-07T20:23:29Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - A Study of Slang Representation Methods [3.511369967593153]
我々は,スラング理解に依存した様々な下流タスクに対して,表現学習モデルと知識資源の異なる組み合わせについて検討する。
誤り解析では、語彙外単語、多意味性、分散性、アノテーションの不一致など、スラング表現学習における中核的な課題を識別する。
論文 参考訳(メタデータ) (2022-12-11T21:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。