論文の概要: Very Large Language Model as a Unified Methodology of Text Mining
- arxiv url: http://arxiv.org/abs/2212.09271v2
- Date: Tue, 20 Dec 2022 17:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:36:31.363059
- Title: Very Large Language Model as a Unified Methodology of Text Mining
- Title(参考訳): テキストマイニングの統一手法としての超大言語モデル
- Authors: Meng Jiang
- Abstract要約: テキストデータマイニングは、言語テキストから必須情報を抽出するプロセスである。
様々なデータセットが収集され、様々な種類のタスクのために様々なアルゴリズムが設計される。
私は、非常に大きな言語モデル(VLLM)がテキストマイニングの効果的な統一手法となるという青空の考えを提示します。
- 参考スコア(独自算出の注目度): 17.653623842967807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text data mining is the process of deriving essential information from
language text. Typical text mining tasks include text categorization, text
clustering, topic modeling, information extraction, and text summarization.
Various data sets are collected and various algorithms are designed for the
different types of tasks. In this paper, I present a blue sky idea that very
large language model (VLLM) will become an effective unified methodology of
text mining. I discuss at least three advantages of this new methodology
against conventional methods. Finally I discuss the challenges in the design
and development of VLLM techniques for text mining.
- Abstract(参考訳): テキストデータマイニングは、言語テキストから必須情報を抽出するプロセスである。
典型的なテキストマイニングタスクには、テキスト分類、テキストクラスタリング、トピックモデリング、情報抽出、テキスト要約などがある。
様々なデータセットが収集され、様々な種類のタスクのために様々なアルゴリズムが設計される。
本稿では,非常に大きな言語モデル(VLLM)が,テキストマイニングの効果的な統一手法となる,という青空の考えを示す。
従来の手法に対する新しい手法の少なくとも3つの利点について論じる。
最後に,テキストマイニングのためのVLLM技術の設計と開発における課題について論じる。
関連論文リスト
- Uzbek text summarization based on TF-IDF [0.0]
本稿では,ウズベク語における要約課題について実験する。
この手法はTF-IDFアルゴリズムに基づくテキスト抽象化に基づいている。
テキスト全体の重要な部分にn-gram法を適用することで、与えられたテキストを要約する。
論文 参考訳(メタデータ) (2023-03-01T12:39:46Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。
ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。
PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文 参考訳(メタデータ) (2022-01-14T01:44:58Z) - Pretrained Language Models for Text Generation: A Survey [46.03096493973206]
本稿では、テキスト生成のための事前学習言語モデル(PLM)のトピックにおいて達成された大きな進歩について概説する。
我々は、既存のPLMを異なる入力データに適応させ、生成したテキストの特別な特性を満たす方法について論じる。
論文 参考訳(メタデータ) (2021-05-21T12:27:44Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - Progressive Generation of Long Text with Pretrained Language Models [83.62523163717448]
GPT-2のような大量のテキストコーパスで事前訓練された大規模言語モデル(LM)は、強力なオープンドメインテキストジェネレータである。
このようなモデルが、特に小さなコーパス上のターゲットドメインに微調整された場合、コヒーレントな長いテキストパスを生成することは依然として困難である。
本稿では,低解像度から高解像度の画像に触発されて,テキストを段階的に生成する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2020-06-28T21:23:05Z) - Matching Text with Deep Mutual Information Estimation [0.0]
本稿では,深い相互情報推定を組み込んだ汎用テキストマッチングのためのニューラルネットワークを提案する。
提案手法は,Deep Info Max (TIM) を用いたテキストマッチングであり,表現の教師なし学習手法と統合されている。
自然言語推論,パラフレーズ識別,解答選択など,いくつかのタスクにおけるテキストマッチング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-09T15:25:37Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。