論文の概要: Building Korean linguistic resource for NLU data generation of banking app CS dialog system
- arxiv url: http://arxiv.org/abs/2605.10241v1
- Date: Mon, 11 May 2026 09:16:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.682441
- Title: Building Korean linguistic resource for NLU data generation of banking app CS dialog system
- Title(参考訳): NLUデータ生成のための韓国語資源の構築 CSダイアログシステム
- Authors: Jeongwoo Yoon, On-yu Park, Changhoe Hwang, Gwanghoon Yoo, Eric Laporte, Jeesun Nam,
- Abstract要約: FIADという言語資源の構築について報告し,その利用により韓国のNLUの注釈付きトレーニングデータを生成する。
ToPIC (ENTITY), FEATURE, EVENT, DISCOURSE MARKERの3つの言語パターンを同定した。
資源の実用性を評価するため,DIET-only (Intent: 0.91 / Topic [entity+feature]: 0.83), DIET+ HANBERT (I:0.94/T:0.85), DIET+KoBERT (I:0.94/T:0.86), DIET+KorBERT (I:0.94/T:0.86), の性能評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language understanding (NLU) is integral to task-oriented dialog systems, but demands a considerable amount of annotated training data to increase the coverage of diverse utterances. In this study, we report the construction of a linguistic resource named FIAD (Financial Annotated Dataset) and its use to generate a Korean annotated training data for NLU in the banking customer service (CS) domain. By an empirical examination of a corpus of banking app reviews, we identified three linguistic patterns occurring in Korean request utterances: TOPIC (ENTITY, FEATURE), EVENT, and DISCOURSE MARKER. We represented them in LGGs (Local Grammar Graphs) to generate annotated data covering diverse intents and entities. To assess the practicality of the resource, we evaluate the performances of DIET-only (Intent: 0.91 /Topic [entity+feature]: 0.83), DIET+ HANBERT (I:0.94/T:0.85), DIET+ KoBERT (I:0.94/T:0.86), and DIET+ KorBERT (I:0.95/T:0.84) models trained on FIAD-generated data to extract various types of semantic items.
- Abstract(参考訳): 自然言語理解(NLU)はタスク指向の対話システムには不可欠であるが、多様な発話のカバレッジを高めるために大量の注釈付きトレーニングデータを必要とする。
本研究では、FIAD(Financial Annotated Dataset)という言語資源の構築と、銀行顧客サービス(CS)ドメインにおけるNLUのための韓国語アノテートトレーニングデータの作成について報告する。
ToPIC (ENTITY, FEATURE), EVENT, DISCOURSE MARKERの3つの言語パターンを, 銀行アプリレビューのコーパスを実証的に検証した。
我々はLGG(Local Grammar Graphs)でそれらを表現し、さまざまな意図や実体をカバーする注釈付きデータを生成した。
資源の実用性を評価するため,DIET-only (Intent: 0.91 /Topic [entity+feature]: 0.83), DIET+ HANBERT (I:0.94/T:0.85), DIET+KoBERT (I:0.94/T:0.86), DIET+KorBERT (I:0.95/T:0.84)モデルの性能を評価し,FIAD生成データに基づいて学習した各種意味項目を抽出した。
関連論文リスト
- ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition [0.8025340896297104]
ANCHOLIK-NERはバングラ地方方言におけるNERの最初のベンチマークデータセットである。
我々は,Bangla BERT,Bangla BERT Base,BERT Base Multilingual Casedの3つのトランスフォーマーモデルを評価する。
以上の結果から,BERT Base Multilingual Casedは各領域にまたがる名前の認識に最適であることが示唆された。
論文 参考訳(メタデータ) (2025-02-16T16:59:10Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。