論文の概要: Exclusive Topic Modeling
- arxiv url: http://arxiv.org/abs/2102.03525v1
- Date: Sat, 6 Feb 2021 07:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:52:09.458899
- Title: Exclusive Topic Modeling
- Title(参考訳): 独占的トピックモデリング
- Authors: Hao Lei and Ying Chen
- Abstract要約: Exclusive Topic Modeling (ETM) はフィールド固有のキーワードを識別できるが、頻度は低い。
トピック分離を実装するために、ペアワイズなKullback-Leibler分散ペナルティが使用される。
シミュレーション研究により、EMMはフィールド固有のキーワードを検出し、LDAは失敗することを示した。
- 参考スコア(独自算出の注目度): 3.9191509180670447
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an Exclusive Topic Modeling (ETM) for unsupervised text
classification, which is able to 1) identify the field-specific keywords though
less frequently appeared and 2) deliver well-structured topics with exclusive
words. In particular, a weighted Lasso penalty is imposed to reduce the
dominance of the frequently appearing yet less relevant words automatically,
and a pairwise Kullback-Leibler divergence penalty is used to implement topics
separation. Simulation studies demonstrate that the ETM detects the
field-specific keywords, while LDA fails. When applying to the benchmark NIPS
dataset, the topic coherence score on average improves by 22% and 10% for the
model with weighted Lasso penalty and pairwise Kullback-Leibler divergence
penalty, respectively.
- Abstract(参考訳): 本研究では,1)フィールド固有のキーワードを識別できるが,頻度が低かったり,2)排他的な単語でよく構造化されたトピックを提示できる,教師なしテキスト分類のための排他的トピックモデリング(ETM)を提案する。
特に、重み付きLassoペナルティは、頻繁に現れるが、より関連性が低い単語の優位性を自動的に減少させるために課され、ペアワイズKullback-Leibler発散ペナルティは、トピックの分離を実装するために使用されます。
シミュレーション研究では、ETMがフィールド固有のキーワードを検出するが、LDAは失敗する。
ベンチマークNIPSデータセットに適用すると、平均的なトピックコヒーレンススコアは、重み付きLassoペナルティとペアワイズKullback-Leibler発散ペナルティを持つモデルに対して22%と10%向上する。
関連論文リスト
- PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models [5.980822697955566]
Paraphrasusはパラフレーズ検出モデルの多次元評価のために設計されたベンチマークである。
詳細な評価レンズ下でのパラフレーズ検出モデルは,単一分類データセットでは取得できないトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-18T15:33:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Measuring Spurious Correlation in Classification: 'Clever Hans' in Translationese [11.478503501597967]
トピックベースの素早い相関に注目し,2つの方向から質問にアプローチする。
本研究では,教師なしトピックと対象分類ラベルとのアライメントを指標として,データ中の素早いトピック情報の表示方法を開発した。
本手法はクラスタリングにおける純度と同一であることを示し,分類のための「トピックフロア」(「ノイズフロア」など)を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:19:58Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Neural Attention-Aware Hierarchical Topic Model [25.721713066830404]
文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
我々のモデルは、各文書の埋め込みを利用して文の正規化を行う階層的なKL分岐も特徴としている。
定量的および定性的な実験は,1) 文レベルと文書レベルの再現誤りを低減し,2) 実世界のデータセットからより一貫性のあるトピックを発見できる。
論文 参考訳(メタデータ) (2021-10-14T05:42:32Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Attribute-Induced Bias Eliminating for Transductive Zero-Shot Learning [144.94728981314717]
本稿では,トランスダクティブZSLのためのAttribute-induced Bias Elimination (AIBE)モジュールを提案する。
2つのドメイン間の視覚的バイアスに対して、Mean-Teacherモジュールは2つのドメイン間の視覚的表現の相違をブリッジするために最初に利用される。
注目グラフ属性の埋め込みは、目に見えないカテゴリと見えないカテゴリ間の意味バイアスを減らすために提案される。
最後に、目に見えない領域のセマンティック・視覚的バイアスに対して、目に見えないセマンティックアライメント制約は、教師なしの方法で視覚空間とセマンティック空間を整列するように設計されている。
論文 参考訳(メタデータ) (2020-05-31T02:08:01Z) - Neural Topic Modeling with Bidirectional Adversarial Training [37.71988156164695]
本稿では,BATモデル(Bidirectional Adversarial Topic)と呼ばれるニューラルトピックモデリング手法を提案する。
BATは、文書トピック分布と文書ワード分布との間に双方向のプロジェクションを構築する。
単語関連性情報を組み込むため、ガウス語(ガウス語-BAT)を用いた双方向逆トピックモデルを拡張する。
論文 参考訳(メタデータ) (2020-04-26T09:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。