論文の概要: Human in the loop: How to effectively create coherent topics by manually
labeling only a few documents per class
- arxiv url: http://arxiv.org/abs/2212.09422v1
- Date: Mon, 19 Dec 2022 12:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:37:14.306999
- Title: Human in the loop: How to effectively create coherent topics by manually
labeling only a few documents per class
- Title(参考訳): ループの中の人間:クラスごとの文書を手動でラベル付けすることで、一貫性のあるトピックを効果的に作成する方法
- Authors: Anton Thielmann, Christoph Weisser, Benjamin S\"afken
- Abstract要約: スパースラベル設定下での高精度なモデリングのためのショット法はほとんど改善されていない。
近年のパフォーマンス向上により、教師なしのトピック抽出法と単純なトピック抽出法を組み合わせることで、教師なしトピックモデリング法に大きな課題が生じる。
本研究は,教師付き少数ショット学習と簡単なトピック抽出法を組み合わせることで,コヒーレントなトピックを生成するという点で教師なしトピックモデリング技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot methods for accurate modeling under sparse label-settings have
improved significantly. However, the applications of few-shot modeling in
natural language processing remain solely in the field of document
classification. With recent performance improvements, supervised few-shot
methods, combined with a simple topic extraction method pose a significant
challenge to unsupervised topic modeling methods. Our research shows that
supervised few-shot learning, combined with a simple topic extraction method,
can outperform unsupervised topic modeling techniques in terms of generating
coherent topics, even when only a few labeled documents per class are used.
- Abstract(参考訳): ばらばらなラベル設定の下で正確なモデリングを行うための数少ない方法が大幅に改善されている。
しかし、自然言語処理における少数ショットモデリングの応用は、文書分類の分野に留まっている。
近年のパフォーマンス向上により、教師なしのトピック抽出法と単純なトピック抽出法を組み合わせることで、教師なしトピックモデリング法に大きな課題が生じる。
本研究は,教師付き少数ショット学習と簡単なトピック抽出手法を組み合わせることで,クラスごとのラベル付き文書を少数使用しても,コヒーレントなトピックを生成するという点で教師なしトピックモデリング技術より優れていることを示す。
関連論文リスト
- Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Understanding prompt engineering may not require rethinking
generalization [56.38207873589642]
言語モデルによって与えられるPAC-Bayesと組み合わさったプロンプトの離散的性質は、文献の標準によって非常に厳密な一般化境界をもたらすことを示す。
この研究は、プロンプトエンジニアリングの広範な実践を正当化する可能性がある。
論文 参考訳(メタデータ) (2023-10-06T00:52:48Z) - KDSTM: Neural Semi-supervised Topic Modeling with Knowledge Distillation [5.688430564294212]
テキスト分類タスクでは、BERT や GPT-3 のような事前訓練された言語モデルを微調整することで、競争精度が向上する。
一般的な話題モデリング手法は、事前学習を必要とせず、意味のある単語のパターンを抽出するために文書を解析する利点がある。
我々は、テキスト分類タスクにおけるトピックモデリングの教師なし洞察抽出を活用するために、知識蒸留半教師付きトピックモデリング(KDSTM)を開発した。
論文 参考訳(メタデータ) (2023-07-04T18:49:19Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。