論文の概要: ViCGCN: Graph Convolutional Network with Contextualized Language Models
for Social Media Mining in Vietnamese
- arxiv url: http://arxiv.org/abs/2309.02902v1
- Date: Wed, 6 Sep 2023 10:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 15:58:07.931247
- Title: ViCGCN: Graph Convolutional Network with Contextualized Language Models
for Social Media Mining in Vietnamese
- Title(参考訳): ViCGCN:ベトナムにおけるソーシャルメディアマイニングのための文脈言語モデルを用いたグラフ畳み込みネットワーク
- Authors: Chau-Thang Phan, Quoc-Nam Nguyen, Chi-Thanh Dang, Trong-Hop Do, Kiet
Van Nguyen
- Abstract要約: 不均衡でノイズの多いデータは、ベトナムのソーシャルメディアのテキストで対処する必要がある2つの重要な問題である。
本研究では,文脈型言語モデル(PhoBERT)とグラフベースの手法(グラフ畳み込みネットワーク)に基づく新しいアプローチを提案する。
我々の提案したViCGCNアプローチは、最高の文脈化言語モデルよりも6.21%、4.61%、および2.63%の大幅な改善を示している。
- 参考スコア(独自算出の注目度): 0.964547614383472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social media processing is a fundamental task in natural language processing
with numerous applications. As Vietnamese social media and information science
have grown rapidly, the necessity of information-based mining on Vietnamese
social media has become crucial. However, state-of-the-art research faces
several significant drawbacks, including imbalanced data and noisy data on
social media platforms. Imbalanced and noisy are two essential issues that need
to be addressed in Vietnamese social media texts. Graph Convolutional Networks
can address the problems of imbalanced and noisy data in text classification on
social media by taking advantage of the graph structure of the data. This study
presents a novel approach based on contextualized language model (PhoBERT) and
graph-based method (Graph Convolutional Networks). In particular, the proposed
approach, ViCGCN, jointly trained the power of Contextualized embeddings with
the ability of Graph Convolutional Networks, GCN, to capture more syntactic and
semantic dependencies to address those drawbacks. Extensive experiments on
various Vietnamese benchmark datasets were conducted to verify our approach.
The observation shows that applying GCN to BERTology models as the final layer
significantly improves performance. Moreover, the experiments demonstrate that
ViCGCN outperforms 13 powerful baseline models, including BERTology models,
fusion BERTology and GCN models, other baselines, and SOTA on three benchmark
social media datasets. Our proposed ViCGCN approach demonstrates a significant
improvement of up to 6.21%, 4.61%, and 2.63% over the best Contextualized
Language Models, including multilingual and monolingual, on three benchmark
datasets, UIT-VSMEC, UIT-ViCTSD, and UIT-VSFC, respectively. Additionally, our
integrated model ViCGCN achieves the best performance compared to other
BERTology integrated with GCN models.
- Abstract(参考訳): ソーシャルメディア処理は多くのアプリケーションで自然言語処理の基本的なタスクである。
ベトナムのソーシャルメディアと情報科学が急速に成長するにつれて、ベトナムのソーシャルメディアにおける情報に基づく鉱業の必要性が重要になっている。
しかし、最先端の研究は、不均衡なデータやソーシャルメディアプラットフォーム上の騒々しいデータなど、いくつかの重大な欠点に直面している。
不均衡と騒音は、ベトナムのソーシャルメディアのテキストで対処する必要がある2つの重要な問題である。
グラフ畳み込みネットワークは、データのグラフ構造を利用して、ソーシャルメディア上のテキスト分類における不均衡およびノイズデータの問題に対処することができる。
本研究では,文脈型言語モデル(PhoBERT)とグラフベースの手法(Graph Convolutional Networks)に基づく新しいアプローチを提案する。
特に、提案されたアプローチであるViCGCNは、グラフ畳み込みネットワーク(GCN)の能力とコンテキスト化された埋め込みの力を共同で訓練し、それらの欠点に対処するための構文的およびセマンティックな依存関係をキャプチャした。
このアプローチを検証するために,ベトナムの様々なベンチマークデータセットに関する広範囲な実験を行った。
その結果,最終層としてGCNをBERTologyモデルに適用すると性能が著しく向上することがわかった。
さらに、実験により、ViCGCNはBERTologyモデル、融合BERTologyおよびGCNモデル、その他のベースライン、3つのベンチマークソーシャルメディアデータセット上でSOTAを含む13の強力なベースラインモデルより優れていることが示された。
提案手法は,UIT-VSMEC,UIT-ViCTSD,UIT-VSCTSD,UIT-VSFCの3つのベンチマークデータセットに対して,多言語および単言語を含む最高の文脈言語モデルに対して,最大6.21%,4.61%,および2.63%の改善を示した。
さらに、我々の統合モデルViCGCNは、GCNモデルと統合された他のBERTologyと比較して最高の性能を達成する。
関連論文リスト
- ECRC: Emotion-Causality Recognition in Korean Conversation for GCN [0.0]
本稿では,新しいグラフ構造に基づく会話モデル(ECRC)の感情因果認識を提案する。
本研究では,単語レベルの埋め込みと文レベルの埋め込みの両方を活用することで,過去の埋め込みの限界を克服する。
このモデルは、双方向長短期メモリ(Bi-LSTM)とグラフニューラルネットワーク(GCN)モデルを韓国の会話分析のために一意に統合する。
論文 参考訳(メタデータ) (2024-03-16T02:07:31Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - A Unique Training Strategy to Enhance Language Models Capabilities for
Health Mention Detection from Social Media Content [6.053876125887214]
ソーシャルメディアから健康関連コンテンツを抽出することは、様々なタイプのアプリケーションの開発に有用である。
この欠点の主な理由は、ソーシャルメディア利用者が一般的に使用する標準化されていない書き込みスタイルにある。
鍵となるゴールは、ランダムな重み付き摂動と対照的な学習戦略を取り入れることによって達成される。
ソーシャルメディアテキストの投稿を非健康・健康関連クラスに識別するための5つの異なる言語モデルの利点を享受するメタ予測器を提案する。
論文 参考訳(メタデータ) (2023-10-29T16:08:33Z) - SMTCE: A Social Media Text Classification Evaluation Benchmark and
BERTology Models for Vietnamese [3.0938904602244355]
本稿では,様々なSMTCタスクを対象としたデータセットとモデルの収集として,ソーシャルメディアテキスト分類評価(SMTCE)ベンチマークを紹介する。
我々は,多言語BERTベースモデルと単言語BERTベースモデルの有効性をベンチマークで実装し,解析する。
このベンチマークは、多言語および単言語BERTベースのモデルを客観的に評価し、ベトナム語のBERTologyに関する将来の研究に役立つだろう。
論文 参考訳(メタデータ) (2022-09-21T16:33:46Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Medical Entity Disambiguation Using Graph Neural Networks [9.974312451277545]
医療機関の曖昧さに対するグラフニューラルネットワーク(GNN)を導入する。
ED-GNNの微調整と改善のための2つの最適化手法を開発。
当社のED-GNNは、5つの実世界のデータセットにおけるF1スコアで平均7.3%の改善を提供します。
論文 参考訳(メタデータ) (2021-04-03T22:04:15Z) - A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese [2.7528170226206443]
本研究の目的は、ベトナムの3つのベンチマークデータセットから、ソーシャルメディア上のベトナム語のテキストを分類することである。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
私たちのアンサンブルモデルは、3つのデータセットで最高のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-09-28T04:28:48Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z) - Simple and Deep Graph Convolutional Networks [63.76221532439285]
グラフ畳み込みネットワーク(GCN)は、グラフ構造化データに対する強力なディープラーニングアプローチである。
その成功にもかかわらず、現在のGCNモデルは、エムの過度に滑らかな問題のため、ほとんどが浅くなっている。
本稿では,2つの単純かつ効果的な手法を用いて,バニラGCNモデルを拡張したGCNIIを提案する。
論文 参考訳(メタデータ) (2020-07-04T16:18:06Z) - Tensor Graph Convolutional Networks for Multi-relational and Robust
Learning [74.05478502080658]
本稿では,テンソルで表されるグラフの集合に関連するデータから,スケーラブルな半教師付き学習(SSL)を実現するためのテンソルグラフ畳み込みネットワーク(TGCN)を提案する。
提案アーキテクチャは、標準的なGCNと比較して大幅に性能が向上し、最先端の敵攻撃に対処し、タンパク質間相互作用ネットワーク上でのSSL性能が著しく向上する。
論文 参考訳(メタデータ) (2020-03-15T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。