論文の概要: From Synthetic to Native: Benchmarking Multilingual Intent Classification in Logistics Customer Service
- arxiv url: http://arxiv.org/abs/2603.23172v1
- Date: Tue, 24 Mar 2026 13:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.490133
- Title: From Synthetic to Native: Benchmarking Multilingual Intent Classification in Logistics Customer Service
- Title(参考訳): 合成からネイティブへ:ロジスティックス顧客サービスにおける多言語インテント分類のベンチマーク
- Authors: Haoyu He, Jinyu Zhuang, Haoran Chu, Shuhang Yu, J, T AI Group, Hao Wang, Kunpeng Han,
- Abstract要約: 実物流顧客サービスログから構築した階層型多言語意図分類のためのベンチマークを提案する。
データセットには、600Kの履歴から算出された約30Kの非識別、スタンドアロンのユーザクエリが含まれている。
その結果、翻訳されたテストセットは、ノイズの多いネイティブクエリのパフォーマンスを大幅に過大評価していることがわかった。
- 参考スコア(独自算出の注目度): 7.557997129883522
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multilingual intent classification is central to customer-service systems on global logistics platforms, where models must process noisy user queries across languages and hierarchical label spaces. Yet most existing multilingual benchmarks rely on machine-translated text, which is typically cleaner and more standardized than native customer requests and can therefore overestimate real-world robustness. We present a public benchmark for hierarchical multilingual intent classification constructed from real logistics customer-service logs. The dataset contains approximately 30K de-identified, stand-alone user queries curated from 600K historical records through filtering, LLM-assisted quality control, and human verification, and is organized into a two-level taxonomy with 13 parent and 17 leaf intents. English, Spanish, and Arabic are included as seen languages, while Indonesian, Chinese, and additional test-only languages support zero-shot evaluation. To directly measure the gap between synthetic and real evaluation, we provide paired native and machine-translated test sets and benchmark multilingual encoders, embedding models, and small language models under flat and hierarchical protocols. Results show that translated test sets substantially overestimate performance on noisy native queries, especially for long-tail intents and cross-lingual transfer, underscoring the need for more realistic multilingual intent benchmarks.
- Abstract(参考訳): マルチリンガルインテント分類は、グローバルロジスティクスプラットフォーム上のカスタマーサービスシステムの中心であり、モデルが言語や階層的なラベル空間をまたいだノイズの多いユーザクエリを処理しなければならない。
しかし、既存の多言語ベンチマークのほとんどは、機械翻訳されたテキストに依存しており、通常はネイティブな顧客要求よりもクリーンで標準化されており、したがって現実世界の堅牢性を過大評価することができる。
実物流顧客サービスログから構築した階層型多言語意図分類のための公開ベンチマークを提案する。
データセットには、フィルタリング、LLM支援品質管理、人間の検証を通じて600Kの歴史的記録から算出された約30Kの非識別、スタンドアロンのユーザクエリが含まれており、13の親と17の葉の意図を持つ2段階の分類に分類されている。
英語、スペイン語、アラビア語はこのような言語に含まれており、インドネシア語、中国語、その他のテスト専用言語はゼロショット評価をサポートしている。
合成と実評価のギャップを直接計測するため, フラットかつ階層的なプロトコルの下で, ネイティブおよび機械翻訳テストセットとベンチマーク多言語エンコーダ, 埋め込みモデル, 小型言語モデルを提供する。
結果から, 翻訳されたテストセットは, ノイズの多いネイティブクエリ, 特にロングテールインテントやクロスランガルトランスファーにおいて, かなり過大評価され, より現実的なマルチランガルインテントベンチマークの必要性が強調された。
関連論文リスト
- Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs [47.944645462877894]
Referring Expression (REC) は、自然言語の記述に基づいてオブジェクトを画像にローカライズするモデルを必要とする。
この研究は2つの主要な貢献を通じて多言語RECに対処する。
10言語にまたがる統合多言語データセットを構築し、機械翻訳と文脈に基づく翻訳拡張により、既存の12のRECベンチマークを体系的に拡張する。
得られたデータセットは、177,620の画像にまたがる800万の多言語参照表現と、336,882の注釈付きオブジェクトで構成されている。
論文 参考訳(メタデータ) (2025-11-14T15:54:34Z) - HPLT 3.0: Very Large-Scale Multilingual Resources for LLM and MT. Mono- and Bi-lingual Data, Multilingual Evaluation, and Pre-Trained Models [25.953042884928006]
約200の言語に対して、オープンで、非常に大きく、高品質で、リッチな注釈付きテキストデータセットを提供するためのイニシアティブを提示します。
30兆のトークンで、これはおそらくLLM事前学習データの多言語収集としては最大である。
57種類のモノリンガルエンコーダ-デコーダモデルと、少数のモノリンガルGPT様参照モデルを訓練し、評価する。
論文 参考訳(メタデータ) (2025-11-02T20:16:38Z) - Human-Annotated NER Dataset for the Kyrgyz Language [0.5220697980320981]
KyrgyzNERは、Kyrgyz言語用の最初の手動アノテーション付きエンティティ認識データセットである。
データセットには10,900の文と39,075のエンティティがあり、27の命名されたエンティティクラスにまたがっている。
本稿では、アノテーション方式を示し、アノテーションプロセスで直面する課題について論じ、記述統計を提示する。
論文 参考訳(メタデータ) (2025-09-23T14:56:10Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。