論文の概要: Handling Collocations in Hierarchical Latent Tree Analysis for Topic
Modeling
- arxiv url: http://arxiv.org/abs/2007.05163v1
- Date: Fri, 10 Jul 2020 04:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 21:24:13.123537
- Title: Handling Collocations in Hierarchical Latent Tree Analysis for Topic
Modeling
- Title(参考訳): トピックモデリングのための階層的潜在木解析におけるコロケーションの扱い
- Authors: Leonard K. M. Poon and Nevin L. Zhang and Haoran Xie and Gary Cheng
- Abstract要約: 階層型潜在木解析(HLTA)は近年,階層型トピックモデリングのために提案されている。
HLTAの前処理ステップとして,コロケーションを抽出し,選択する手法を提案する。
実験により,提案手法により,テストした4つのデータセットのうち3つのHLTAの性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 20.60586863102209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Topic modeling has been one of the most active research areas in machine
learning in recent years. Hierarchical latent tree analysis (HLTA) has been
recently proposed for hierarchical topic modeling and has shown superior
performance over state-of-the-art methods. However, the models used in HLTA
have a tree structure and cannot represent the different meanings of multiword
expressions sharing the same word appropriately. Therefore, we propose a method
for extracting and selecting collocations as a preprocessing step for HLTA. The
selected collocations are replaced with single tokens in the bag-of-words model
before running HLTA. Our empirical evaluation shows that the proposed method
led to better performance of HLTA on three of the four data sets tested.
- Abstract(参考訳): 近年、トピックモデリングは機械学習で最も活発な研究分野の1つとなっている。
階層型潜在木解析(HLTA)は近年,階層型トピックモデリングのために提案されており,最先端手法よりも優れた性能を示している。
しかし、HLTAで使用されるモデルは木構造を持ち、同じ単語を適切に共有するマルチワード表現の異なる意味を表現できない。
そこで本稿では,HLTAの前処理ステップとしてコロケーションを抽出し,選択する手法を提案する。
選択されたコロケーションはhltaを実行する前に、bag-of-wordsモデルで単一のトークンに置き換えられる。
実験により,提案手法により,テストした4つのデータセットのうち3つのHLTAの性能が向上したことを示す。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - generAItor: Tree-in-the-Loop Text Generation for Language Model
Explainability and Adaptation [28.715001906405362]
大規模言語モデル(LLM)は、自動補完、補助的な書き込み、チャットベースのテキスト生成など、様々な下流タスクに広くデプロイされている。
本稿では,ビーム探索ツリーの視覚的表現を解析,説明,適応する中心的な要素とする,ループ内ツリーのアプローチを提案することで,この欠点に対処する。
視覚解析技術であるGenerAItorを,タスク固有のウィジェットで中央ビーム探索木を拡大し,ターゲットとした可視化とインタラクションの可能性を提供する。
論文 参考訳(メタデータ) (2024-03-12T13:09:15Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner [56.08919422452905]
我々はIRGR(Iterative Retrieval-Generation Reasoner)と呼ばれるアーキテクチャを提案する。
本モデルでは,テキストの前提からステップバイステップの説明を体系的に生成することにより,与えられた仮説を説明することができる。
前提条件の検索と細分化木の生成に関する既存のベンチマークを上回り、全体の正しさはおよそ300%向上した。
論文 参考訳(メタデータ) (2022-05-18T21:52:11Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - VSEC-LDA: Boosting Topic Modeling with Embedded Vocabulary Selection [20.921010767231923]
VSEC-LDA(Vocabulary-Embedded Correspondence-LDA)と呼ばれるトピックモデリングの新しいアプローチを提案する。
VSEC-LDAは、最も関連性の高い単語を同時に選択しながら、潜在モデルを学習する。
単語の選択は、下層のモデルに対する単語の相対的寄与を測定するエントロピーに基づく計量によって駆動される。
論文 参考訳(メタデータ) (2020-01-15T22:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。