論文の概要: Towards Generalising Neural Topical Representations
- arxiv url: http://arxiv.org/abs/2307.12564v1
- Date: Mon, 24 Jul 2023 07:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:23:20.784414
- Title: Towards Generalising Neural Topical Representations
- Title(参考訳): 神経局所表現の一般化に向けて
- Authors: Xiaohao Yang, He Zhao, Dinh Phung and Lan Du
- Abstract要約: 本研究では,コーパス間のニューラルトピック表現に関する一般化能力を大幅に向上することを示す。
我々のフレームワークは、ほとんどのNTMにプラグイン・アンド・プレイモジュールとして簡単に適用できます。
- 参考スコア(独自算出の注目度): 12.942999695613508
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Topic models have evolved from conventional Bayesian probabilistic models to
Neural Topic Models (NTMs) over the last two decays. Although NTMs have
achieved promising performance when trained and tested on a specific corpus,
their generalisation ability across corpora is rarely studied. In practice, we
often expect that an NTM trained on a source corpus can still produce quality
topical representation for documents in a different target corpus without
retraining. In this work, we aim to improve NTMs further so that their benefits
generalise reliably across corpora and tasks. To do so, we propose to model
similar documents by minimising their semantical distance when training NTMs.
Specifically, similar documents are created by data augmentation during
training; The semantical distance between documents is measured by the
Hierarchical Topic Transport Distance (HOTT), which computes the Optimal
Transport (OT) distance between the topical representations. Our framework can
be readily applied to most NTMs as a plug-and-play module. Extensive
experiments show that our framework significantly improves the generalisation
ability regarding neural topical representation across corpora.
- Abstract(参考訳): トピックモデルは、従来のベイズ確率モデルからニューラルトピックモデル(NTM)へと進化してきた。
NTMは特定のコーパス上でトレーニングおよびテストを行う際に有望な性能を達成したが、コーパス間の一般化能力はほとんど研究されていない。
実際には、ソースコーパスでトレーニングされたNTMが、異なるターゲットコーパスの文書に対して、再トレーニングなしに高品質なトピック表現を生成できると期待することが多い。
本研究は, コーパスやタスクにまたがって, NTMをさらに改良し, そのメリットを確実に一般化することを目的としている。
そこで我々は,ntmsの学習における意味的距離を最小化し,類似文書のモデル化を提案する。
文書間の意味的距離は、トピック表現間の最適なトランスポート距離(ot)を計算する階層的トピックトランスポート距離(hott)によって測定される。
我々のフレームワークは、ほとんどのntmsにプラグアンドプレイモジュールとして容易に適用できます。
大規模な実験により, コーパス間の神経トピック表現に関する一般化能力は大幅に向上した。
関連論文リスト
- Improving the TENOR of Labeling: Re-evaluating Topic Models for Content
Analysis [5.757610495733924]
対話型タスクベース設定において,ニューラル,教師付き,古典的なトピックモデルの最初の評価を行う。
現在の自動メトリクスは、トピックモデリング機能の完全な図を提供していないことを示す。
論文 参考訳(メタデータ) (2024-01-29T17:54:04Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - TAN-NTM: Topic Attention Networks for Neural Topic Modeling [8.631228373008478]
本稿では,入力層におけるBoWの代わりに,文書をトークンのシーケンスとしてモデル化する新しいフレームワークであるTAN-NTMを提案する。
我々はLSTM出力に注意を払って、トピックに関連する手がかりを伝達する関連単語への参加をモデルに与える。
TAN-NTMは、NPMIコヒーレンスメトリックにおける既存のSOTAトピックモデルのスコアよりも9~15パーセント向上した最先端結果を達成する。
論文 参考訳(メタデータ) (2020-12-02T20:58:04Z) - Neural Topic Model via Optimal Transport [24.15046280736009]
最適輸送理論(OT)を用いたニューラルトピックモデルを提案する。
具体的には、文書の単語分布に対するOT距離を直接最小化し、文書の話題分布を学習することを提案する。
提案手法は, 異なる損失を伴って効率的に学習することができる。
論文 参考訳(メタデータ) (2020-08-12T06:37:09Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。