論文の概要: HAMLET: Healthcare-focused Adaptive Multilingual Learning Embedding-based Topic Modeling
- arxiv url: http://arxiv.org/abs/2505.07157v1
- Date: Mon, 12 May 2025 00:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.227387
- Title: HAMLET: Healthcare-focused Adaptive Multilingual Learning Embedding-based Topic Modeling
- Title(参考訳): HAMLET:医療に焦点を当てた適応型多言語学習埋め込みに基づくトピックモデリング
- Authors: Hajar Sakai, Sarah S. Lam,
- Abstract要約: 本稿では,言語間医療トピックモデリングのためのグラフ駆動アーキテクチャであるHAMLETを紹介する。
提案手法では,ニューラルエンハンスド・セマンティック・フュージョンを用いて,大規模言語モデルによって生成されたトピックの埋め込みを改良する。
実験は2つの医療データセットを用いて行われ、1つは英語、1つはフランス語で、そこから6つのデータセットが抽出された。
- 参考スコア(独自算出の注目度): 4.8342038441006805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional topic models often struggle with contextual nuances and fail to adequately handle polysemy and rare words. This limitation typically results in topics that lack coherence and quality. Large Language Models (LLMs) can mitigate this issue by generating an initial set of topics. However, these raw topics frequently lack refinement and representativeness, which leads to redundancy without lexical similarity and reduced interpretability. This paper introduces HAMLET, a graph-driven architecture for cross-lingual healthcare topic modeling that uses LLMs. The proposed approach leverages neural-enhanced semantic fusion to refine the embeddings of topics generated by the LLM. Instead of relying solely on statistical co-occurrence or human interpretation to extract topics from a document corpus, this method introduces a topic embedding refinement that uses Bidirectional Encoder Representations from Transformers (BERT) and Graph Neural Networks (GNN). After topic generation, a hybrid technique that involves BERT and Sentence-BERT (SBERT) is employed for embedding. The topic representations are further refined using a GNN, which establishes connections between documents, topics, words, similar topics, and similar words. A novel method is introduced to compute similarities. Consequently, the topic embeddings are refined, and the top k topics are extracted. Experiments were conducted using two healthcare datasets, one in English and one in French, from which six sets were derived. The results demonstrate the effectiveness of HAMLET.
- Abstract(参考訳): 伝統的な話題モデルは文脈的なニュアンスに苦しむことが多く、多節語や稀な単語を適切に扱えない。
この制限は典型的に一貫性と品質に欠けるトピックをもたらす。
大きな言語モデル(LLM)は、最初のトピックセットを生成することでこの問題を軽減することができる。
しかし、これらの生のトピックは洗練と代表性を欠くことが多く、語彙的類似性のない冗長性と解釈可能性の低下につながる。
本稿では,LLMを用いた言語間医療トピックモデリングのためのグラフ駆動アーキテクチャであるHAMLETを紹介する。
提案手法は、LLMによって生成されたトピックの埋め込みを洗練するために、ニューラルネットワークによるセマンティックフュージョンを利用する。
文書コーパスからトピックを抽出するために、統計的共起や人間の解釈にのみ依存するのではなく、変換器(BERT)とグラフニューラルネットワーク(GNN)による双方向エンコーダ表現を用いたトピック埋め込み改良を導入する。
トピック生成後、埋め込みにはBERTとSBERT(Sentence-BERT)を含むハイブリッド技術が使用される。
トピック表現は、文書、トピック、単語、類似したトピック、および類似した単語間の接続を確立するGNNを使用してさらに洗練される。
類似性を計算するための新しい手法が導入された。
その結果、トピック埋め込みが洗練され、トップkトピックが抽出される。
実験は2つの医療データセットを用いて実施され、1つは英語、1つはフランス語で、そこから6つのデータセットが抽出された。
その結果,HAMLETの有効性が示された。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - A Large Language Model Guided Topic Refinement Mechanism for Short Text Modeling [10.589126787499973]
既存のトピックモデルは、しばしば短いテキストの根底にあるセマンティックなパターンを正確に捉えるのに苦労する。
本稿では,トピックリファインメント(Topic Refinement)と呼ばれる新しいモデル非依存機構を提案する。
トピックリファインメントによりトピックの品質が向上し、トピック関連テキスト分類タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Neural Attention-Aware Hierarchical Topic Model [25.721713066830404]
文と文書語数を共同で再構成する変分自動エンコーダ(VAE)NTMモデルを提案する。
我々のモデルは、各文書の埋め込みを利用して文の正規化を行う階層的なKL分岐も特徴としている。
定量的および定性的な実験は,1) 文レベルと文書レベルの再現誤りを低減し,2) 実世界のデータセットからより一貫性のあるトピックを発見できる。
論文 参考訳(メタデータ) (2021-10-14T05:42:32Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Context Reinforced Neural Topic Modeling over Short Texts [15.487822291146689]
文脈強化ニューラルトピックモデル(CRNTM)を提案する。
CRNTMは各単語のトピックを狭い範囲で推測し、各短いテキストがわずかにまとまったトピックだけをカバーしていると仮定する。
2つのベンチマークデータセットの実験は、トピック発見とテキスト分類の両方において提案モデルの有効性を検証する。
論文 参考訳(メタデータ) (2020-08-11T06:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。