論文の概要: Ultra-Fast, Low-Storage, Highly Effective Coarse-grained Selection in
Retrieval-based Chatbot by Using Deep Semantic Hashing
- arxiv url: http://arxiv.org/abs/2012.09647v2
- Date: Fri, 18 Dec 2020 12:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:30:43.006594
- Title: Ultra-Fast, Low-Storage, Highly Effective Coarse-grained Selection in
Retrieval-based Chatbot by Using Deep Semantic Hashing
- Title(参考訳): ディープセマンティックハッシュによる検索型チャットボットの超高速, 低ストレージ, 高効率粗粒選択
- Authors: Tian Lan, Xian-Ling Mao, Xiaoyan Gao, Wei Wei, Heyan Huang
- Abstract要約: 粗粒選択モジュールには、疎表現と密表現の2つのアプローチがあります。
広範な実験の結果、密度表現法はスパース表現を大きく上回ることが示された。
DSHCモデルと呼ばれる超高速,低ストレージ,高効率なディープセマンティックハッシュ粗粒度選択法を提案する。
提案するDSHCモデルでは,疎表現よりも高速かつ低ストレージ化が可能であり,高密度表現に比べて性能損失が小さい。
- 参考スコア(独自算出の注目度): 25.803411212281443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the coarse-grained selection module in retrieval-based chatbot.
Coarse-grained selection is a basic module in a retrieval-based chatbot, which
constructs a rough candidate set from the whole database to speed up the
interaction with customers. So far, there are two kinds of approaches for
coarse-grained selection module: (1) sparse representation; (2) dense
representation. To the best of our knowledge, there is no systematic comparison
between these two approaches in retrieval-based chatbots, and which kind of
method is better in real scenarios is still an open question. In this paper, we
first systematically compare these two methods from four aspects: (1)
effectiveness; (2) index stoarge; (3) search time cost; (4) human evaluation.
Extensive experiment results demonstrate that dense representation method
significantly outperforms the sparse representation, but costs more time and
storage occupation. In order to overcome these fatal weaknesses of dense
representation method, we propose an ultra-fast, low-storage, and highly
effective Deep Semantic Hashing Coarse-grained selection method, called DSHC
model. Specifically, in our proposed DSHC model, a hashing optimizing module
that consists of two autoencoder models is stacked on a trained dense
representation model, and three loss functions are designed to optimize it. The
hash codes provided by hashing optimizing module effectively preserve the rich
semantic and similarity information in dense vectors. Extensive experiment
results prove that, our proposed DSHC model can achieve much faster speed and
lower storage than sparse representation, with limited performance loss
compared with dense representation. Besides, our source codes have been
publicly released for future research.
- Abstract(参考訳): 検索型チャットボットにおける粗粒度選択モジュールについて検討する。
粗粒度選択は検索ベースのチャットボットの基本モジュールであり、データベース全体から粗い候補セットを構築し、顧客との対話を高速化する。
これまでのところ, 粗粒度選択モジュールには(1) スパース表現, (2) 密表現という2種類のアプローチがある。
我々の知る限りでは、検索ベースのチャットボットにおけるこれらの2つのアプローチの体系的な比較は行われず、実際のシナリオにおいてどの手法が優れているかは、まだ未解決の問題である。
本稿では,まずこれらの2つの手法を,(1)有効性,(2)指標ストージ,(3)探索時間コスト,(4)人的評価の4つの側面から体系的に比較する。
広範な実験の結果、密表現法はスパース表現を大きく上回るが、時間とストレージの占有が増大することが示された。
密度表現法の致命的な弱点を克服するために,DSHCモデルと呼ばれる超高速,低ストレージ,高効率なディープセマンティックハッシュ粗粒化法を提案する。
具体的には,提案するDSHCモデルにおいて,2つのオートエンコーダモデルからなるハッシュ最適化モジュールを訓練された高密度表現モデル上に積み重ね,その最適化のために3つの損失関数を設計する。
ハッシュ最適化モジュールによって提供されるハッシュコードは、密閉ベクトル内の豊富な意味と類似性情報を効果的に保存する。
その結果,提案したDSHCモデルは疎表現よりもはるかに高速かつ低ストレージ化が可能であり,高密度表現と比較して性能損失は限定的であることがわかった。
さらに、将来の研究のためにソースコードが公開されています。
関連論文リスト
- Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。
これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。
我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文 参考訳(メタデータ) (2022-07-26T04:38:47Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Cascaded Fast and Slow Models for Efficient Semantic Code Search [46.53530668938728]
本稿では,高速かつ低速なモデルを用いた効率的かつ高精度な意味コード検索フレームワークを提案する。
提案したカスケードアプローチは効率的でスケーラブルなだけでなく,最先端の結果も達成している。
論文 参考訳(メタデータ) (2021-10-15T02:23:35Z) - Efficient Sparse Coding using Hierarchical Riemannian Pursuit [2.4087148947930634]
スパース符号化は、辞書と符号の線形結合の形で入力データの表現を学ぶための監視されていない方法のクラスである。
完全辞書を用いたスパース符号化タスクのための効率的な合成状態スキームを提案する。
論文 参考訳(メタデータ) (2021-04-21T02:16:44Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。