論文の概要: "Newspaper Eat" Means "Not Tasty": A Taxonomy and Benchmark for Coded Languages in Real-World Chinese Online Reviews
- arxiv url: http://arxiv.org/abs/2601.19932v1
- Date: Mon, 12 Jan 2026 08:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.557066
- Title: "Newspaper Eat" Means "Not Tasty": A Taxonomy and Benchmark for Coded Languages in Real-World Chinese Online Reviews
- Title(参考訳): The Newspaper Eat”は"Not Tasty"を意味する: 実世界の中国語オンラインレビューにおけるコード言語分類とベンチマーク
- Authors: Ruyuan Wan, Changye Li, Ting-Hao 'Kenneth' Huang,
- Abstract要約: 本稿では,7,744の中国語Googleマップレビューと,コード付き言語のスパンレベルアノテーションを用いたデータセットであるCodedLangを紹介する。
音声学、正書法、言語間置換を含む共通符号化戦略を捉える7クラス分類法を開発した。
結果は、強力なモデルでさえ、コード化された言語を識別または理解できないことを示している。
- 参考スコア(独自算出の注目度): 14.361987265496042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coded language is an important part of human communication. It refers to cases where users intentionally encode meaning so that the surface text differs from the intended meaning and must be decoded to be understood. Current language models handle coded language poorly. Progress has been limited by the lack of real-world datasets and clear taxonomies. This paper introduces CodedLang, a dataset of 7,744 Chinese Google Maps reviews, including 900 reviews with span-level annotations of coded language. We developed a seven-class taxonomy that captures common encoding strategies, including phonetic, orthographic, and cross-lingual substitutions. We benchmarked language models on coded language detection, classification, and review rating prediction. Results show that even strong models can fail to identify or understand coded language. Because many coded expressions rely on pronunciation-based strategies, we further conducted a phonetic analysis of coded and decoded forms. Together, our results highlight coded language as an important and underexplored challenge for real-world NLP systems.
- Abstract(参考訳): コード言語は人間のコミュニケーションの重要な部分である。
ユーザが意図的に意味をコード化して、表面テキストが意図した意味と異なり、理解するために復号しなければならない場合を指す。
現在の言語モデルは、コード化された言語をうまく扱えない。
進歩は、現実世界のデータセットと明確な分類の欠如によって制限されてきた。
本稿では,中国のGoogle Mapsレビュー7,744件のデータセットであるCodedLangを紹介した。
音声学、正書法、言語間置換を含む共通符号化戦略を捉える7クラス分類法を開発した。
我々は、コード付き言語検出、分類、レビュー評価予測に関する言語モデルをベンチマークした。
結果は、強力なモデルでさえ、コード化された言語を識別または理解できないことを示している。
多くの符号化された表現は発音に基づく戦略に依存しているため、さらに符号化された形式と復号された形式の音声解析を行った。
この結果から,実世界のNLPシステムの重要かつ未探索な課題として,符号化言語が注目されている。
関連論文リスト
- Corpus-Based Approaches to Igbo Diacritic Restoration [0.23552726065717702]
自然言語を処理するコンピュータの能力は、NLP研究者がその境界を押し進めているため、増大している。
世界の7000言語のうち95%以上がNLPのために低リソースであり、NLP作業のためのデータ、ツール、技術はほとんど、あるいは全く持っていない。
ダイアクリティカルな曖昧さの概観と、他の言語に対する以前のダイアクリティカルな曖昧さのアプローチの見直しについて述べる。
論文 参考訳(メタデータ) (2026-01-26T11:30:36Z) - HiFACTMix: A Code-Mixed Benchmark and Graph-Aware Model for EvidenceBased Political Claim Verification in Hinglish [0.0]
既存の事実検証システムは、インドのような言語学的に多様な地域での実際の政治談話に一般化することができない。
HiFACTMixは、多言語コンテキストエンコーディング、クレーム・エビデンス・セマンティックアライメント、エビデンスグラフ構築、グラフニューラル推論、自然言語説明生成を組み合わせた、新しいグラフウェア、検索強化ファクトチェックモデルである。
論文 参考訳(メタデータ) (2025-08-04T17:14:03Z) - A Qualitative Investigation into LLM-Generated Multilingual Code Comments and Automatic Evaluation Metrics [10.1653613066577]
我々は,5つの最先端コードモデルによって生成されたコードコメントの誤りを分析するために,オープンコーディング研究を行う。
モデル生成コードコメントにおいて26の異なるエラーカテゴリの分類を同定する。
分析の結果、これらのモデルはしばしば部分的に正しいコメントを生成するが、現代のニューラルネットワークは、意味のある完了をランダムノイズと確実に区別することができないことがわかった。
論文 参考訳(メタデータ) (2025-05-21T12:45:49Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。