論文の概要: Clustering Vietnamese Conversations From Facebook Page To Build Training
Dataset For Chatbot
- arxiv url: http://arxiv.org/abs/2112.15338v1
- Date: Fri, 31 Dec 2021 07:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 21:32:16.031004
- Title: Clustering Vietnamese Conversations From Facebook Page To Build Training
Dataset For Chatbot
- Title(参考訳): facebookページからベトナム語会話をクラスタリングしてチャットボットのトレーニングデータセットを構築する
- Authors: Trieu Hai Nguyen, Thi-Kim-Ngoan Pham, Thi-Hong-Minh Bui,
Thanh-Quynh-Chau Nguyen
- Abstract要約: 私たちはFacebookページのFacebookメッセンジャーから実際のトレーニングデータを取得するツールを作成しました。
テキスト前処理ステップの後、新たに取得したデータセットは、FVnCおよびSampleデータセットを生成する。
ベトナム語(PhoBERT)に対するBERTの再訓練(Retraining of BERT)を用いて,テキストデータの特徴を抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The biggest challenge of building chatbots is training data. The required
data must be realistic and large enough to train chatbots. We create a tool to
get actual training data from Facebook messenger of a Facebook page. After text
preprocessing steps, the newly obtained dataset generates FVnC and Sample
dataset. We use the Retraining of BERT for Vietnamese (PhoBERT) to extract
features of our text data. K-Means and DBSCAN clustering algorithms are used
for clustering tasks based on output embeddings from PhoBERT$_{base}$. We apply
V-measure score and Silhouette score to evaluate the performance of clustering
algorithms. We also demonstrate the efficiency of PhoBERT compared to other
models in feature extraction on Sample dataset. A GridSearch algorithm that
combines both clustering evaluations is also proposed to find optimal
parameters. Thanks to clustering such a number of conversations, we save a lot
of time and effort to build data and storylines for training chatbot.
- Abstract(参考訳): チャットボットを構築する上で最大の課題は、データのトレーニングだ。
必要なデータは現実的で、チャットボットを訓練するのに十分な大きさでなければならない。
私たちはfacebookページのfacebook messengerから実際のトレーニングデータを取得するツールを作成します。
テキスト前処理ステップの後、新たに取得したデータセットは、FVnCおよびSampleデータセットを生成する。
ベトナム語(PhoBERT)に対するBERTの再訓練を用いて,テキストデータの特徴を抽出する。
K-MeansとDBSCANクラスタリングアルゴリズムは、PhoBERT$_{base}$の出力埋め込みに基づくクラスタリングタスクに使用される。
クラスタリングアルゴリズムの性能評価には,V測定スコアとシルエットスコアを適用した。
また,PhoBERTの他のモデルと比較して,Sampleデータセットにおける特徴抽出の効率性を示す。
また,クラスタリング評価を併用したGridSearchアルゴリズムを提案し,最適パラメータを求める。
このような会話をクラスタリングすることで、チャットボットをトレーニングするためのデータとストーリーラインを構築するのに多くの時間と労力を節約できます。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - CiT: Curation in Training for Effective Vision-Language Data [84.77867625605053]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。
CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。
我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文 参考訳(メタデータ) (2023-01-05T18:59:57Z) - A Compact Pretraining Approach for Neural Language Models [21.767174489837828]
事前学習したNLMは、データのコンパクトなサブセットから、ドメイン内の情報をより効率的に、より高速に学習できることを示す。
抽象要約と抽出キーワードを組み合わせた非構造化データから,これらのコンパクトな部分集合を構築する。
我々の戦略は、バニラ予習に比べて、予習時間を最大5倍削減します。
論文 参考訳(メタデータ) (2022-08-25T22:43:47Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - A Semi-Supervised Deep Clustering Pipeline for Mining Intentions From
Texts [6.599344783327053]
Verint Manager Intent(VIM)は、教師なしおよび半教師なしのアプローチを組み合わせた分析プラットフォームで、アナリストが会話テキストから関連するユーザの意図を素早く分析し整理するのに役立つ。
データの最初の探索には、ハイパフォーマンスな言語モデルの微調整を統合する、教師なしで半教師なしのパイプラインを使用します。
BERTはタスクデータの0.5%のラベル付きサブセットを使用して、より優れたタスク認識表現を生成する。
論文 参考訳(メタデータ) (2022-02-01T23:01:05Z) - Finding High-Value Training Data Subset through Differentiable Convex
Programming [5.5180456567480896]
本稿では,トレーニングデータの高値部分集合を選択する問題について検討する。
重要なアイデアは、オンラインサブセット選択のための学習可能なフレームワークを設計することです。
このフレームワークを用いて,選択モデルとmlモデルのパラメータを共同で学習するオンライン交流最小化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-04-28T14:33:26Z) - Text Classification Using Hybrid Machine Learning Algorithms on Big Data [0.0]
本研究では,2つの教師付き機械学習アルゴリズムとテキストマイニング技術を組み合わせてハイブリッドモデルを生成する。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のNa"ive BayesとSVMモデルに対して96.76%の精度を示した。
論文 参考訳(メタデータ) (2021-03-30T19:02:48Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。