論文の概要: IYKYK: Using language models to decode extremist cryptolects
- arxiv url: http://arxiv.org/abs/2506.05635v1
- Date: Thu, 05 Jun 2025 23:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.265386
- Title: IYKYK: Using language models to decode extremist cryptolects
- Title(参考訳): IYKYK:言語モデルを用いて極端暗号を復号する
- Authors: Christine de Kock, Arij Riabi, Zeerak Talat, Michael Sejr Schlichtkrull, Pranava Madhyastha, Ed Hovy,
- Abstract要約: エクストリーム派グループは、外部者を排除したり誤解させたりするために、複雑なイングループ言語(クリプトレクトとも呼ばれる)を開発する。
本稿では,2つのオンライン過激派プラットフォームの暗号を検出・解釈する現在の言語技術の能力について検討する。
- 参考スコア(独自算出の注目度): 10.95315420377272
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Extremist groups develop complex in-group language, also referred to as cryptolects, to exclude or mislead outsiders. We investigate the ability of current language technologies to detect and interpret the cryptolects of two online extremist platforms. Evaluating eight models across six tasks, our results indicate that general purpose LLMs cannot consistently detect or decode extremist language. However, performance can be significantly improved by domain adaptation and specialised prompting techniques. These results provide important insights to inform the development and deployment of automated moderation technologies. We further develop and release novel labelled and unlabelled datasets, including 19.4M posts from extremist platforms and lexicons validated by human experts.
- Abstract(参考訳): エクストリーム派グループは、外部者を排除したり誤解させたりするために、複雑なイングループ言語(クリプトレクトとも呼ばれる)を開発する。
本稿では,2つのオンライン過激派プラットフォームの暗号を検出・解釈する現在の言語技術の能力について検討する。
本研究では,6つのタスクにまたがる8つのモデルを評価することで,汎用LLMは過激な言語を一貫して検出・復号できないことを示す。
しかし、ドメイン適応と特殊化プロンプト技術により性能が大幅に向上する。
これらの結果は、自動モデレーション技術の開発と展開を知らせる重要な洞察を与えてくれる。
我々はさらに、過激派プラットフォームからの19.4Mポストや、人間の専門家によって検証されたレキシコンを含むラベル付きおよびラベルなしのデータセットを開発し、リリースする。
関連論文リスト
- Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。
実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-09T16:00:01Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - An Evaluation of LLMs for Detecting Harmful Computing Terms [6.387263468033964]
本研究では, モデルアーキテクチャが有害な言語検出に与える影響を, 専門用語のキュレートされたデータベースの評価により検討する。
我々は、BERT-base-uncased、RoBERTa large-mnli、Gemini Flash 1.5および2.0、GPT-4、Claude AI Sonnet 3.5、T5-large、BART-large-mnliを含む、エンコーダ、デコーダ、エンコーダ-デコーダ言語モデルをテストした。
その結果、デコーダモデル、特にGemini Flash 2.0とClaude AIは、微妙な文脈分析に優れており、BERTのようなエンコーダモデルは強力なパターン認識を示すが、分類の確実性に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-03-12T12:36:45Z) - Advancing Student Writing Through Automated Syntax Feedback [10.137657521054356]
本研究は, 学生の統語能力を高める上で, 構文フィードバックが重要な役割を担っていることを明らかにする。
本稿では,英語構文の理解と応用を高めるために,Essay-Syntax-Instructという特殊なデータセットを導入する。
論文 参考訳(メタデータ) (2025-01-13T23:10:02Z) - The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data [50.544186914115045]
TEDUOは、シンボリック環境におけるオフライン言語条件のポリシー学習のための、新しいトレーニングパイプラインである。
まず、オフラインデータセットをよりリッチなアノテーションで拡張する自動化ツールとして、次に、一般化可能な命令フォローエージェントとして使用します。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - On-the-Fly Controlled Text Generation with Experts and Anti-Experts [70.41630506059113]
本稿では,DExperts: Decoding-time Expertsを提案する。
私たちのアンサンブルの下では、出力トークンは専門家によって可能性が高く、おそらく反専門家によってのみ高い確率を得ます。
論文 参考訳(メタデータ) (2021-05-07T01:19:38Z) - Decrypting Cryptic Crosswords: Semantically Complex Wordplay Puzzles as a Target for NLP [28.479149974110463]
クリプティッククロスワード(英: Cryptic crosswords)は、NLPシステムの進歩に向けた有望なターゲットである。
我々は、NLPシステムの新しいベンチマークとして、秘密の手がかりのデータセットを提示する。
また、課題データ分割を導入し、サブワード・トークン化モデルのメタ言語的能力を検証し、手掛かりのワードプレイ部分を摂動することでモデル体系性を検討する。
論文 参考訳(メタデータ) (2021-04-17T18:54:00Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。