論文の概要: Which Kind Is Better in Open-domain Multi-turn Dialog,Hierarchical or
Non-hierarchical Models? An Empirical Study
- arxiv url: http://arxiv.org/abs/2008.02964v1
- Date: Fri, 7 Aug 2020 02:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:28:11.114568
- Title: Which Kind Is Better in Open-domain Multi-turn Dialog,Hierarchical or
Non-hierarchical Models? An Empirical Study
- Title(参考訳): オープンドメインマルチターンダイアログ、階層的、非階層的モデルにおいて、どちらが優れているか?
実証的研究
- Authors: Tian Lan, Xian-Ling Mao, Wei Wei, Heyan Huang
- Abstract要約: オープンドメインのマルチターンダイアログ生成には,階層モデルと非階層モデルという2つのモデルがある。
本稿では、同じ実験環境において、ほぼすべての代表階層モデルと非階層モデルを測定し、どのモデルが良いかを確認する。
HRANの優れた性能は、主に単語レベルの注意機構に依存している。
- 参考スコア(独自算出の注目度): 52.66393833841219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, open-domain generative dialog systems have attracted considerable
attention in academia and industry. Despite the success of single-turn dialog
generation, multi-turn dialog generation is still a big challenge. So far,
there are two kinds of models for open-domain multi-turn dialog generation:
hierarchical and non-hierarchical models. Recently, some works have shown that
the hierarchical models are better than non-hierarchical models under their
experimental settings; meanwhile, some works also demonstrate the opposite
conclusion. Due to the lack of adequate comparisons, it's not clear which kind
of models are better in open-domain multi-turn dialog generation. Thus, in this
paper, we will measure systematically nearly all representative hierarchical
and non-hierarchical models over the same experimental settings to check which
kind is better. Through extensive experiments, we have the following three
important conclusions: (1) Nearly all hierarchical models are worse than
non-hierarchical models in open-domain multi-turn dialog generation, except for
the HRAN model. Through further analysis, the excellent performance of HRAN
mainly depends on its word-level attention mechanism; (2) The performance of
other hierarchical models will also obtain a great improvement if integrating
the word-level attention mechanism into these models. The modified hierarchical
models even significantly outperform the non-hierarchical models; (3) The
reason why the word-level attention mechanism is so powerful for hierarchical
models is because it can leverage context information more effectively,
especially the fine-grained information. Besides, we have implemented all of
the models and already released the codes.
- Abstract(参考訳): 現在、オープンドメイン生成ダイアログシステムは学術や産業において大きな注目を集めている。
シングルターンダイアログ生成の成功にもかかわらず、マルチターンダイアログ生成は依然として大きな課題である。
今のところ、オープンドメインのマルチターンダイアログ生成には、階層モデルと非階層モデルという2種類のモデルがある。
近年、階層モデルが実験条件下での非階層モデルよりも優れていることを示す研究もあるが、反対の結論を示す研究もある。
適切な比較が不十分なため、オープンドメインのマルチターンダイアログ生成においてどのモデルが優れているかは明らかではない。
そこで,本論文では,階層的および非階層的モデルのほとんどを,同じ実験環境上で系統的に測定し,どのモデルが優れているかを確認する。
広範にわたる実験を通じて,(1)階層モデルはほぼすべての階層モデルがhranモデルを除いて,オープンドメインマルチターンダイアログ生成において非階層モデルよりも悪い,という3つの重要な結論を得た。
HRANの優れた性能は、主に単語レベルの注意機構に依存し、(2)単語レベルの注意機構をこれらのモデルに統合した場合、他の階層モデルの性能も大幅に向上する。
改良された階層モデルは非階層モデルよりもはるかに優れている; (3) 単語レベルの注意機構が階層モデルにとってこれほど強力である理由は、文脈情報、特にきめ細かい情報をより効果的に活用できるためである。
さらに、すべてのモデルを実装し、すでにコードをリリースしています。
関連論文リスト
- HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。
本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。
我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文 参考訳(メタデータ) (2024-09-27T16:31:31Z) - Using Game Play to Investigate Multimodal and Conversational Grounding in Large Multimodal Models [14.878276985702685]
本稿では,テキストモデルからマルチモーダルモデルへの評価パラダイムを提案する。
我々は、視覚情報から状況を表現するためのモデルの能力に挑戦するゲームを定義し、対話を通じてそのような表現を調整する。
最大のクローズドモデルは、私たちが定義したゲームでかなりよく機能し、最高のオープンウェイトモデルでさえそれらと苦労している。
論文 参考訳(メタデータ) (2024-06-20T06:56:19Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Modeling Heterogeneous Hierarchies with Relation-specific Hyperbolic
Cones [64.75766944882389]
知識グラフにおける複数の階層的および非階層的関係を同時にモデル化できるKG埋め込みモデルであるConE(Cone Embedding)を提案する。
特に、ConEは双曲埋め込み空間の異なる部分空間における円錐包含制約を用いて、複数の異種階層をキャプチャする。
我々のアプローチでは、WN18RRで45.3%、DDB14で16.1%の新しい最先端hits@1が得られる(0.231 MRR)。
論文 参考訳(メタデータ) (2021-10-28T07:16:08Z) - Hierarchical Modeling for Out-of-Scope Domain and Intent Classification [55.23920796595698]
本稿では,対話システムにおけるスコープ外意図分類に焦点をあてる。
ドメインとインテントを同時に分類する共同モデルに基づく階層型マルチタスク学習手法を提案する。
実験により、モデルが既存の手法よりも精度、スコープ外リコール、F1で優れていることが示された。
論文 参考訳(メタデータ) (2021-04-30T06:38:23Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - Controlling Style in Generated Dialogue [13.445455480452484]
従来提案されていた3つの制御可能な生成アーキテクチャをオープンドメイン対話生成に適用する。
我々は、およそ200の可能なスタイルのうち1つに対応するように、世代スタイルを制御します。
既存の会話データセットに対する洞察を提供するために、それらがどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-09-22T23:21:04Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。