論文の概要: GuideWalk -- Heterogeneous Data Fusion for Enhanced Learning -- A Multiclass Document Classification Case
- arxiv url: http://arxiv.org/abs/2404.18942v1
- Date: Thu, 25 Apr 2024 18:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:39:28.275844
- Title: GuideWalk -- Heterogeneous Data Fusion for Enhanced Learning -- A Multiclass Document Classification Case
- Title(参考訳): GuideWalk -- 拡張学習のための異種データ融合 -- 多クラス文書分類ケース
- Authors: Sarmad N. Mohammed, Semra Gündüç,
- Abstract要約: 意味のある文のグラフ構造に基づく新しい埋め込み法を提案する。
本手法の有効性を分類問題において検証した。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the prime problems of computer science and machine learning is to extract information efficiently from large-scale, heterogeneous data. Text data, with its syntax, semantics, and even hidden information content, possesses an exceptional place among the data types in concern. The processing of the text data requires embedding, a method of translating the content of the text to numeric vectors. A correct embedding algorithm is the starting point for obtaining the full information content of the text data. In this work, a new embedding method based on the graph structure of the meaningful sentences is proposed. The design of the algorithm aims to construct an embedding vector that constitutes syntactic and semantic elements as well as the hidden content of the text data. The success of the proposed embedding method is tested in classification problems. Among the wide range of application areas, text classification is the best laboratory for embedding methods; the classification power of the method can be tested using dimensional reduction without any further processing. Furthermore, the method can be compared with different embedding algorithms and machine learning methods. The proposed method is tested with real-world data sets and eight well-known and successful embedding algorithms. The proposed embedding method shows significantly better classification for binary and multiclass datasets compared to well-known algorithms.
- Abstract(参考訳): 計算機科学と機械学習の主な問題のひとつは、大規模な異種データから情報を効率的に抽出することである。
テキストデータは、その構文、セマンティクス、さらには隠された情報コンテンツによって、懸念されるデータ型の中で例外的な位置を占める。
テキストデータの処理には埋め込みが必要である。
正しい埋め込みアルゴリズムは、テキストデータの完全な情報内容を取得するための出発点である。
本研究では,意味文のグラフ構造に基づく新しい埋め込み手法を提案する。
このアルゴリズムの設計は、テキストデータの隠された内容だけでなく、構文的および意味的要素を構成する埋め込みベクトルを構築することを目的としている。
本手法の有効性を分類問題において検証した。
応用分野の広い範囲において, テキスト分類は埋込工法に最適な実験室であり, その分類能力は, さらなる処理を伴わずに次元還元法を用いて検証することができる。
さらに、異なる埋め込みアルゴリズムや機械学習手法と比較することができる。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
提案手法は、よく知られたアルゴリズムと比較して、バイナリとマルチクラスデータセットの分類がかなり優れていることを示す。
関連論文リスト
- Text classification optimization algorithm based on graph neural network [0.36651088217486427]
本稿では,グラフニューラルネットワークを用いたテキスト分類最適化アルゴリズムを提案する。
適応的なグラフ構築戦略と効率的なグラフ畳み込み操作を導入することにより、テキスト分類の精度と効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-08-09T23:25:37Z) - Lightweight Conceptual Dictionary Learning for Text Classification Using Information Compression [15.460141768587663]
データ圧縮と表現に基づくテキスト分類のための軽量な教師付き辞書学習フレームワークを提案する。
我々は,情報ボトルネックの原理を用いて情報理論性能を評価し,情報理論性能を定量化するための新しい指標として情報平面面積ランク(IPAR)を導入する。
論文 参考訳(メタデータ) (2024-04-28T10:11:52Z) - A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models
with Positional Embeddings [6.688643243555054]
要約の認識は、コンテンツを効果的に特定し、記事を明確にするために重要である。
本稿では,中国科学・技術論文の非構造的抽象化に対する注意機構を備えた,改良された事前学習モデルとゲートネットワークを備えた新しい動き認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-14T03:20:28Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - DoubleMix: Simple Interpolation-Based Data Augmentation for Text
Classification [56.817386699291305]
本稿では,DoubleMixと呼ばれる単純なデータ拡張手法を提案する。
DoubleMixはまず、トレーニングデータごとにいくつかの摂動サンプルを生成する。
次に、摂動データと元のデータを使って、隠れたニューラルネットワークの空間で2段階のステップを実行する。
論文 参考訳(メタデータ) (2022-09-12T15:01:04Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - A Fast Randomized Algorithm for Massive Text Normalization [26.602776972067936]
大規模テキストデータのクリーン化と正準化を行うスケーラブルなランダム化アルゴリズムであるFLANを提案する。
本アルゴリズムは, 単語間のジャカード類似性を利用して補正結果を提案する。
実世界のデータセットに対する実験結果は,FLANの有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-06T19:18:17Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。