論文の概要: TSCAN : Dialog Structure discovery using SCAN
- arxiv url: http://arxiv.org/abs/2107.06426v1
- Date: Tue, 13 Jul 2021 22:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:28:00.367638
- Title: TSCAN : Dialog Structure discovery using SCAN
- Title(参考訳): TSCAN : SCANを用いた対話構造発見
- Authors: Apurba Nath, Aayush Kubba
- Abstract要約: 本稿では,SCAN (Semantic Clustering using Nearest Neighbors) をダイアログデータに適用する。
これらのクラスタは、遷移確率を特定し、ダイアログ構造を作成するために使用される。
SCANで使用される自己ラベル方式は、これらの構造を全てのクラスタがラベルを持つように解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we discover dialog structure by dividing utterances into labelled
clusters. Can these labels be generated from the data. Typically for dialogs we
need an ontology and use that to discover structure, however by using
unsupervised classification and self-labelling we are able to intuit this
structure without any labels or ontology. In this paper we apply SCAN (Semantic
Clustering using Nearest Neighbors) to dialog data. We used BERT for pretext
task and an adaptation of SCAN for clustering and self labeling. These clusters
are used to identify transition probabilities and create the dialog structure.
The self-labelling method used for SCAN makes these structures interpretable as
every cluster has a label. As the approach is unsupervised, evaluation metrics
is a challenge, we use statistical measures as proxies for structure quality
- Abstract(参考訳): 発話をラベル付きクラスタに分割することでダイアログ構造を発見できる。
これらのラベルはデータから生成できる。
通常、ダイアログにはオントロジーが必要で、構造を発見するのにそれを使うが、教師なしの分類と自己ラベルを用いることで、この構造をラベルやオントロジーなしで直観することができる。
本稿では,SCAN (Semantic Clustering using Nearest Neighbors) をダイアログデータに適用する。
プレテキストタスクにはBERTを使用し、クラスタリングや自己ラベルにはSCANを適用しました。
これらのクラスタは、遷移確率を特定し、ダイアログ構造を作成するために使用される。
SCANで使用される自己ラベル方式は、これらの構造を全てのクラスタがラベルを持つように解釈できる。
アプローチは教師なしであり、評価指標は課題であり、構造品質のプロキシとして統計測度を用いる。
関連論文リスト
- Label Cluster Chains for Multi-Label Classification [2.072831155509228]
マルチラベル分類は、複数のラベルをインスタンスに同時に割り当てることができる教師付き機械学習の一種である。
そこで本稿では,ラベル空間に分割法を適用して得られた解離相関ラベルクラスタをチェーンする手法を提案する。
提案手法は,学習と連鎖が相関するラベルクラスタをよりよく探索し,ラベル相関を学習できることを示唆する。
論文 参考訳(メタデータ) (2024-11-01T11:16:37Z) - Semi-Supervised Hierarchical Multi-Label Classifier Based on Local Information [1.6574413179773761]
局所情報に基づく半教師付き階層型多言語分類器(SSHMC-BLI)
SSHMC-BLIは、ラベル付き隣人のラベルのパスからラベルなしのインスタンスごとに擬似ラベルを構築する。
機能ゲノミクスによる12の挑戦的なデータセットの実験では、ラベル付きデータとラベル付きデータを使用することで、ラベル付きデータのみに基づいてトレーニングされた教師付き階層型分類器のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-04-30T20:16:40Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - CiPR: An Efficient Framework with Cross-instance Positive Relations for Generalized Category Discovery [21.380021266251426]
一般化圏発見(GCD)は、部分的にラベル付けされたデータセットを自動的にクラスタリングするオープンワールドの問題を考える。
本稿では,非競合データに対する未知のカテゴリ数を用いて,GCD問題に対処する。
我々はCiPRというフレームワークを提案し、クロスインスタンスポジティヴリレーションを利用して表現をブートストラップする。
論文 参考訳(メタデータ) (2023-04-14T05:25:52Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Semi-Supervised Cascaded Clustering for Classification of Noisy Label
Data [0.3441021278275805]
教師付き分類技術の性能は、データがノイズのあるラベルを持つと劣化することが多い。
ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。
パターンを抽出し、そのようなデータセットのクラスをカスケード木として生成する半教師付きカスケードクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-04T17:42:22Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning [69.47585818994959]
リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。
我々は,大規模データプラットフォームであるIBM PAIRSを用いて,密集都市部でそのようなラベルを動的に生成する。
論文 参考訳(メタデータ) (2022-01-31T20:02:22Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。