論文の概要: ConCET: Entity-Aware Topic Classification for Open-Domain Conversational
Agents
- arxiv url: http://arxiv.org/abs/2005.13798v1
- Date: Thu, 28 May 2020 06:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:12:17.814169
- Title: ConCET: Entity-Aware Topic Classification for Open-Domain Conversational
Agents
- Title(参考訳): ConCET: オープンドメイン対話エージェントのエンティティ対応トピック分類
- Authors: Ali Ahmadvand, Harshita Sahijwani, Jason Ingyu Choi, Eugene Agichtein
- Abstract要約: ConCET: Concurrent Entity-aware conversational Topic Classifierを紹介する。
本稿では,合成学習データを生成するための簡便で効果的な手法を提案する。
我々はAmazon Alexa Prizeの一部として収集された実際のユーザとの人間と機械の会話の大規模なデータセットでConCETを評価した。
- 参考スコア(独自算出の注目度): 9.870634472479571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying the topic (domain) of each user's utterance in open-domain
conversational systems is a crucial step for all subsequent language
understanding and response tasks. In particular, for complex domains, an
utterance is often routed to a single component responsible for that domain.
Thus, correctly mapping a user utterance to the right domain is critical. To
address this problem, we introduce ConCET: a Concurrent Entity-aware
conversational Topic classifier, which incorporates entity-type information
together with the utterance content features. Specifically, ConCET utilizes
entity information to enrich the utterance representation, combining character,
word, and entity-type embeddings into a single representation. However, for
rich domains with millions of available entities, unrealistic amounts of
labeled training data would be required. To complement our model, we propose a
simple and effective method for generating synthetic training data, to augment
the typically limited amounts of labeled training data, using commonly
available knowledge bases to generate additional labeled utterances. We
extensively evaluate ConCET and our proposed training method first on an openly
available human-human conversational dataset called Self-Dialogue, to calibrate
our approach against previous state-of-the-art methods; second, we evaluate
ConCET on a large dataset of human-machine conversations with real users,
collected as part of the Amazon Alexa Prize. Our results show that ConCET
significantly improves topic classification performance on both datasets,
including 8-10% improvements over state-of-the-art deep learning methods. We
complement our quantitative results with detailed analysis of system
performance, which could be used for further improvements of conversational
agents.
- Abstract(参考訳): オープンドメイン会話システムにおける各ユーザの発話のトピック(ドメイン)を識別することは、その後のすべての言語理解および応答タスクにとって重要なステップである。
特に複雑なドメインでは、発話はそのドメインに責任を持つ単一のコンポーネントにルーティングされることが多い。
したがって、ユーザの発話を正しいドメインに正しくマッピングすることが重要である。
この問題に対処するために,我々は,エンティティ型情報と発話内容の特徴を併用したコンカレントエンティティ対応対話型トピック分類器concetを提案する。
具体的には、ConCETはエンティティ情報を利用して発話表現を強化し、文字、単語、エンティティタイプの埋め込みを単一の表現に結合する。
しかし、数百万のエンティティを持つリッチドメインでは、非現実的な量のラベル付きトレーニングデータが必要である。
このモデルを補完するために,一般的に利用可能な知識ベースを用いて,通常限られたラベル付きトレーニングデータを増やし,追加のラベル付き発話を生成する,簡易かつ効果的な合成トレーニングデータ生成手法を提案する。
本稿では,ConCETと提案したトレーニング手法を,まず公開可能な人間対話データセットであるSelf-Dialogueを用いて,従来の最先端手法に対するアプローチの校正を行い,次に,Amazon Alexa Prizeの一部として収集された実ユーザとの人間機械会話の大規模なデータセット上で,ConCETを評価する。
以上の結果から,ConCETは両データセットのトピック分類性能を大幅に改善し,最先端のディープラーニング手法よりも8~10%向上した。
我々は,対話エージェントのさらなる改良に使用できるシステム性能の詳細な分析により,定量的結果を補完する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Synthesizing Conversations from Unlabeled Documents using Automatic Response Segmentation [13.322409682814827]
我々は,会話型質問応答システムにおける不適切でコストのかかるデータトレーニングの課題に対処する。
本稿では,ロバストなダイアログ合成手法を提案する。
文境界におけるセグメンテーションを使わずに,ダイアログタスクのためのデータのセグメンテーションを学習する。
論文 参考訳(メタデータ) (2024-06-06T02:52:45Z) - A Self-enhancement Approach for Domain-specific Chatbot Training via
Knowledge Mining and Digest [62.63606958140248]
大規模言語モデル(LLM)は、特定のドメインで複雑な知識要求クエリを扱う際に、しばしば困難に直面する。
本稿では、ドメイン固有のテキストソースから関連知識を効果的に抽出し、LLMを強化する新しいアプローチを提案する。
我々は知識マイナー、すなわちLLMinerを訓練し、関連する文書から質問応答対を自律的に抽出する。
論文 参考訳(メタデータ) (2023-11-17T16:09:10Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:07:38Z) - A combined approach to the analysis of speech conversations in a contact
center domain [2.575030923243061]
本稿では, インバウンドフローやアウトバウンドフローから抽出した通話記録を扱う, イタリアのコンタクトセンターにおける音声分析プロセスの実験について述べる。
まず,Kaldi フレームワークをベースとした社内音声合成ソリューションの開発について詳述する。
そこで我々は,コールトランスクリプトのセマンティックタグ付けに対する異なるアプローチの評価と比較を行った。
最後に、タグ付け問題にJ48Sと呼ばれる決定木インデューサを適用する。
論文 参考訳(メタデータ) (2022-03-12T10:03:20Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - Data-Efficient Methods for Dialogue Systems [4.061135251278187]
会話型ユーザインタフェース(CUI)は、SiriやAlexaといったコンシューマにフォーカスした製品において、日常的に広く普及している。
ディープラーニングは、対話システムにおける最近のブレークスルーの根底にあるが、専門家によって注釈付けされることが多い、非常に大量のトレーニングデータを必要とする。
本稿では,最小限のデータから頑健な対話システムを訓練するための一連の手法を紹介する。
論文 参考訳(メタデータ) (2020-12-05T02:51:09Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - Improving Conversational Recommender Systems via Knowledge Graph based
Semantic Fusion [77.21442487537139]
対話型レコメンデータシステム(CRS)は,対話型対話を通じて高品質なアイテムをユーザに推薦することを目的としている。
まず、会話データ自体にユーザの好みを正確に理解するための十分なコンテキスト情報がない。
第二に、自然言語表現とアイテムレベルのユーザ嗜好の間には意味的なギャップがある。
論文 参考訳(メタデータ) (2020-07-08T11:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。