論文の概要: A modified model for topic detection from a corpus and a new metric
evaluating the understandability of topics
- arxiv url: http://arxiv.org/abs/2306.04941v1
- Date: Thu, 8 Jun 2023 05:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:13:08.870042
- Title: A modified model for topic detection from a corpus and a new metric
evaluating the understandability of topics
- Title(参考訳): コーパスからのトピック検出のための修正モデルとトピックの理解可能性を評価する新しい尺度
- Authors: Tomoya Kitano, Yuto Miyatake, Daisuke Furihata
- Abstract要約: 新しいモデルは、ドキュメントクラスタリングなどのいくつかの変更を取り入れた組み込みトピックモデルの上に構築されている。
数値実験により、新しいモデルは文書の長さに関わらず好適に機能することが示唆された。
新しいメトリクスは、トピックコヒーレンスのような広く使われているメトリクスよりも効率的に計算でき、検出されたトピックの理解可能性に関する可変情報を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a modified neural model for topic detection from a corpus
and proposes a new metric to evaluate the detected topics. The new model builds
upon the embedded topic model incorporating some modifications such as document
clustering. Numerical experiments suggest that the new model performs
favourably regardless of the document's length. The new metric, which can be
computed more efficiently than widely-used metrics such as topic coherence,
provides variable information regarding the understandability of the detected
topics.
- Abstract(参考訳): 本稿では,コーパスからトピックを検出するための改良型ニューラルモデルを提案し,検出されたトピックを評価するための新しい指標を提案する。
新しいモデルは、ドキュメントクラスタリングのようないくつかの変更を含む組み込みトピックモデル上に構築されている。
数値実験により、新しいモデルは文書の長さに関わらず好適に機能することが示唆された。
トピックコヒーレンスのような広く使用されているメトリクスよりも効率的に計算できる新しいメトリクスは、検出されたトピックの理解可能性に関する可変情報を提供する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - TopicAdapt- An Inter-Corpora Topics Adaptation Approach [27.450275637652418]
本稿では、関連するソースコーパスから関連するトピックを適応し、ソースコーパスに存在しないターゲットコーパスに新しいトピックを発見できるトピックモデルTopicAdaptを提案する。
多様なドメインからの複数のデータセットに対する実験は、最先端のトピックモデルに対して提案されたモデルの優位性を示している。
論文 参考訳(メタデータ) (2023-10-08T02:56:44Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Improving Contextualized Topic Models with Negative Sampling [3.708656266586146]
本稿では,文脈化トピックモデルに対する負のサンプリング機構を提案し,生成したトピックの品質を向上する。
特に、モデルトレーニング中に生成された文書トピックベクトルを摂動させ、三重項損失を用いて、正しい文書トピックベクトルから入力文書に類似した文書を再構築することを奨励する。
論文 参考訳(メタデータ) (2023-03-27T07:28:46Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Coordinated Topic Modeling [10.710176350043998]
本稿では,テキストコーパスを記述しながら人間の行動を模倣する「協調話題モデリング」という新しい問題を提案する。
我々は,対象のコーパス固有の側面を捕捉するために,参照表現を効果的に利用する埋め込み型協調トピックモデルECTMを設計する。
ECTMでは,課題を解決するための自己学習機構を備えたトピックレベルと文書レベルの監視を導入する。
論文 参考訳(メタデータ) (2022-10-16T15:10:54Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Representing Mixtures of Word Embeddings with Mixtures of Topic
Embeddings [46.324584649014284]
トピックモデルはしばしば、文書の各単語が、一連のトピックと文書固有のトピック比に基づいてどのように生成されるかを説明する生成モデルとして定式化される。
本稿では、各文書を単語埋め込みベクトルの集合と見なし、各トピックを同じ埋め込み空間に埋め込みベクトルとしてモデル化する新しいトピックモデリングフレームワークを提案する。
同じベクトル空間に単語とトピックを埋め込み、文書の単語の埋め込みベクトルとそれらのトピックのセマンティックな差異を測る方法を定義し、すべての文書に対して期待される差を最小化するためにトピックの埋め込みを最適化する。
論文 参考訳(メタデータ) (2022-03-03T08:46:23Z) - Semiparametric Latent Topic Modeling on Consumer-Generated Corpora [0.0]
本稿では,非負行列因数分解と半パラメトリック回帰を利用したトピックモデリングにおける2段階のアプローチである,半パラメトリックトピックモデルを提案する。
このモデルにより、コーパス内のスパーストピック構造を再構築することができ、コーパスに入る新しい文書のトピックを予測するための生成モデルを提供する。
実際の消費者フィードバックコーパスでは、モデルは、他のメソッドが生成したものに匹敵する解釈可能で有用なトピック定義を提供する。
論文 参考訳(メタデータ) (2021-07-13T00:22:02Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。