論文の概要: Integrated Eojeol Embedding for Erroneous Sentence Classification in
Korean Chatbots
- arxiv url: http://arxiv.org/abs/2004.05744v1
- Date: Mon, 13 Apr 2020 02:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:52:33.882840
- Title: Integrated Eojeol Embedding for Erroneous Sentence Classification in
Korean Chatbots
- Title(参考訳): 韓国チャットボットにおける誤文分類のための統合型eojeol埋め込み
- Authors: DongHyun Choi and IlNam Park and Myeong Cheol Shin and EungGyun Kim
and Dong Ryeol Shin
- Abstract要約: 文分類は、予め定義されたカテゴリに基づいて入力文を分類するタスクである。
本稿では, 文分類に不適切な形態素が与える影響を低減するために, 統合的エオジェオール(韓国語で区切られた構文語)の埋め込みを新たに提案する。
- 参考スコア(独自算出の注目度): 7.099737083842059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper attempts to analyze the Korean sentence classification system for
a chatbot. Sentence classification is the task of classifying an input sentence
based on predefined categories. However, spelling or space error contained in
the input sentence causes problems in morphological analysis and tokenization.
This paper proposes a novel approach of Integrated Eojeol (Korean syntactic
word separated by space) Embedding to reduce the effect that poorly analyzed
morphemes may make on sentence classification. It also proposes two noise
insertion methods that further improve classification performance. Our
evaluation results indicate that the proposed system classifies erroneous
sentences more accurately than the baseline system by 17%p.0
- Abstract(参考訳): 本稿では,チャットボットの韓国語文分類システムを解析する。
文分類は、予め定義されたカテゴリに基づいて入力文を分類するタスクである。
しかし、入力文に含まれる綴りや空間誤差は形態素解析やトークン化に問題を引き起こす。
本稿では,不規則な形態素が文の分類に与える影響を減らすために,組込み型eojeol (korean syntactic word separated by space) の新たなアプローチを提案する。
また,分類性能をさらに向上させる2つのノイズ挿入法を提案する。
評価の結果,提案システムでは,ベースラインシステムよりも17%の精度で誤文を分類できることがわかった。
関連論文リスト
- Classifying Graphemes in English Words Through the Application of a Fuzzy Inference System [0.0]
言語学において、グラテム(グラテム、英: grapheme)とは、音韻音に対応する書記体系の書記単位である。
本稿では,単語をグラフに分割するファジィ推論システムを提案する。
論文 参考訳(メタデータ) (2024-04-02T13:47:52Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Lack of Fluency is Hurting Your Translation Model [18.259879373559546]
この研究は、列車の文のどの部分が不自然に見えるかを決定するために、テクティトゥフルエンシノイズを定義している。
WMT-14 DE$rightarrow$EN と RU$rightarrow$EN のベースラインよりも優れています。
論文 参考訳(メタデータ) (2022-05-24T06:44:17Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - Extracting Grammars from a Neural Network Parser for Anomaly Detection
in Unknown Formats [79.6676793507792]
強化学習は、ある未知のフォーマットで文を解析するために、人工知能を訓練する技術として、最近約束されている。
本稿では、ニューラルネットワークから生成規則を抽出し、これらの規則を用いて、ある文が名目か異常かを決定する手順を提案する。
論文 参考訳(メタデータ) (2021-07-30T23:10:24Z) - Attacking Text Classifiers via Sentence Rewriting Sampler [12.25764838264699]
general sentence rewriting sampler(srs)フレームワークは、条件付きで有意義な文を生成することができる。
本手法は,意味的類似度と文質を高く保ちつつ,複数の方法で原文を効果的に書き換えることができる。
提案手法は,7つのデータセットのうち4つで攻撃成功率を向上し,7つのデータセットの文質も大幅に向上した。
論文 参考訳(メタデータ) (2021-04-17T05:21:35Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Rewriting Meaningful Sentences via Conditional BERT Sampling and an
application on fooling text classifiers [11.49508308643065]
テキスト分類器を欺くように設計された敵攻撃法は、いくつかの単語や文字を変更することで、テキスト分類器の予測を変更する。
文レベルの言い直しに固有の難しさや、正統な書き直し基準を設定することの難しさから、文全体を書き換えて分類子を攻撃しようとする者はほとんどいない。
本稿では,文レベルの書き換えによる逆例作成の問題について検討する。
我々は文レベルの脅威モデルと呼ばれる新しい修正基準を提案し、この基準は単語レベルの変更と文レベルの変更の両方を可能にし、意味的類似性と2つの次元で独立に調整できる。
論文 参考訳(メタデータ) (2020-10-22T17:03:13Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Fact-aware Sentence Split and Rephrase with Permutation Invariant
Training [93.66323661321113]
Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。
従来の研究では、パラレル文対からのSeq2seq学習によってこの問題に対処する傾向があった。
本稿では,この課題に対するSeq2seq学習における順序分散の効果を検証するために,置換訓練を導入する。
論文 参考訳(メタデータ) (2020-01-16T07:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。