論文の概要: Telenor Nordics Customer Service self-help corpus
- arxiv url: http://arxiv.org/abs/2605.26891v1
- Date: Tue, 26 May 2026 11:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.985778
- Title: Telenor Nordics Customer Service self-help corpus
- Title(参考訳): Telenor Nordics Customer Service Self-Help corpus
- Authors: Mike Riess,
- Abstract要約: 本稿では,フィンランド語,デンマーク語,ノルウェー語,スウェーデン語で手作業で検証された文書1,122件からなる多言語顧客サービスセルフヘルプコーパスを提案する。
文書は、北欧の通信事業者4人の公開自助ページから入手された。
コーパスの解析により、文書の長さと演算子間の構造にかなりの変化が見られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a multilingual customer service self-help corpus comprising 1,122 manually validated documents in Finnish, Danish, Norwegian, and Swedish, totaling over one million tokens. The documents have been sourced from the public self-help pages of four Nordic telecommunications operators and subsequently filtered for person-identifiable information and relevance through a combined LLM and human annotation pipeline. Domain-specific datasets for Nordic languages remain scarce, particularly in customer service: a domain of growing importance for retrieval-augmented generation, cross-lingual transfer learning, and emerging agent-based service architectures. An analysis of the corpus reveals substantial variation in document length and structure across operators, reflecting distinct editorial strategies, as well as broad topical coverage spanning network hardware, mobile services, TV and streaming, billing, and account management. The dataset is publicly available under a CC-BY-NC-SA-4.0 license at https://zenodo.org/records/19493152, intended to support reproducible research in Nordic NLP and information retrieval.
- Abstract(参考訳): 本稿では,フィンランド,デンマーク,ノルウェー,スウェーデンで手作業で検証された文書1,122件からなる多言語顧客サービスセルフヘルプコーパスについて述べる。
これらの文書は、北欧の4つの通信事業者の公開自給自足ページから入手され、その後LLMと人間のアノテーションパイプラインを組み合わせた個人識別情報と関連性のためにフィルタリングされた。
北欧言語のドメイン特化データセットは、特に顧客サービスにおいて、検索強化世代、言語間移行学習、エージェントベースのサービスアーキテクチャの重要性が増している領域において、依然として不足している。
コーパスの分析では、ネットワークハードウェア、モバイルサービス、テレビとストリーミング、請求書、アカウント管理にまたがる幅広いトピックのカバレッジを反映し、演算子間の文書の長さと構造が大幅に変化していることが示されている。
このデータセットは CC-BY-NC-SA-4.0 ライセンスの下で https://zenodo.org/records/19493152 で公開されている。
関連論文リスト
- ClaimPT: A Portuguese Dataset of Annotated Claims in News Articles [6.3071668118252076]
ClaimPTは、事実主張に注釈を付けたヨーロッパのポルトガルのニュース記事のデータセットである。
2つの訓練されたアノテーションは各記事にラベルを付け、キュレーターは新しく提案されたスキームに従ってすべてのアノテーションを検証する。
クレーム検出のためのベースラインモデルを提供し、初期ベンチマークを確立し、将来のNLPおよびIRアプリケーションを可能にする。
論文 参考訳(メタデータ) (2026-01-27T11:22:00Z) - Transforming Sensitive Documents into Quantitative Data: An AI-Based Preprocessing Toolchain for Structured and Privacy-Conscious Analysis [0.0]
大規模分析は、機密性の高い個人識別可能な情報の存在によって妨げられる。
埋め込み型解析のためのテキストデータを作成するモジュラーツールチェーンを提案する。
スウェーデンの裁判所判決10,842件のコーパス上で,このツールチェーンを実証した。
論文 参考訳(メタデータ) (2025-07-11T11:58:36Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.687459576800633]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。
本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (2023-03-30T06:42:22Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。