論文の概要: AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining
- arxiv url: http://arxiv.org/abs/2312.15784v1
- Date: Mon, 25 Dec 2023 18:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:30:17.449142
- Title: AHAM: Adapt, Help, Ask, Model -- Harvesting LLMs for literature mining
- Title(参考訳): AHAM:アダプティブ、ヘルプ、Ask、Model -- 文学採掘のためのLLMのハーベスティング
- Authors: Boshko Koloski and Nada Lavra\v{c} and Bojan Cestnik and Senja Pollak
and Bla\v{z} \v{S}krlj and Andrej Kastrin
- Abstract要約: 本稿では、BERTopicトピックモデリングフレームワークのドメイン固有のテキストbfadaptationをガイドするAHAMの方法論とメトリクスについて述べる。
LLaMa2生成言語モデルを利用することで、ワンショット学習によるトピック定義を生成する。
トピック間の類似度評価には、言語生成および翻訳プロセスからのメトリクスを利用する。
- 参考スコア(独自算出の注目度): 3.8384235322772864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era marked by a rapid increase in scientific publications, researchers
grapple with the challenge of keeping pace with field-specific advances. We
present the `AHAM' methodology and a metric that guides the domain-specific
\textbf{adapt}ation of the BERTopic topic modeling framework to improve
scientific text analysis. By utilizing the LLaMa2 generative language model, we
generate topic definitions via one-shot learning by crafting prompts with the
\textbf{help} of domain experts to guide the LLM for literature mining by
\textbf{asking} it to model the topic names. For inter-topic similarity
evaluation, we leverage metrics from language generation and translation
processes to assess lexical and semantic similarity of the generated topics.
Our system aims to reduce both the ratio of outlier topics to the total number
of topics and the similarity between topic definitions. The methodology has
been assessed on a newly gathered corpus of scientific papers on
literature-based discovery. Through rigorous evaluation by domain experts, AHAM
has been validated as effective in uncovering intriguing and novel insights
within broad research areas. We explore the impact of domain adaptation of
sentence-transformers for the task of topic \textbf{model}ing using two
datasets, each specialized to specific scientific domains within arXiv and
medarxiv. We evaluate the impact of data size, the niche of adaptation, and the
importance of domain adaptation. Our results suggest a strong interaction
between domain adaptation and topic modeling precision in terms of outliers and
topic definitions.
- Abstract(参考訳): 科学出版物の急速な増加が特徴の時代には、研究者はフィールド固有の進歩とペースを維持するという課題に悩まされた。
本稿では,'aham' の方法論と,bertopic トピックモデリングフレームワークのドメイン固有な \textbf{adapt}ation を導いて,科学的なテキスト解析を改善するためのメトリクスを提案する。
LLaMa2生成言語モデルを利用することで、ドメインエキスパートの『textbf{help}』のプロンプトを用いて一発学習によるトピック定義を生成し、そのトピック名をモデル化するために『textbf{asking}』による文献マイニングのためのLLMを導出する。
トピック間の類似度評価のために,言語生成および翻訳プロセスからのメトリクスを活用して,生成したトピックの語彙的および意味的類似度を評価する。
本システムの目的は,外れた話題の比率とトピックの総数と,トピック定義の類似度を両立させることである。
この手法は、文献に基づく発見に関する新しい研究論文のコーパスで評価されている。
ドメインの専門家による厳密な評価を通じて、AHAMは幅広い研究領域における興味と新しい洞察を明らかにするのに有効であることが検証された。
本稿では, arXiv と medarxiv 内の特定の科学領域に特化する2つのデータセットを用いたトピック \textbf{model} タスクに対する文変換器のドメイン適応の影響について検討する。
我々は,データサイズの影響,適応のニッチ,ドメイン適応の重要性を評価する。
以上より,外れ値とトピック定義の観点から,ドメイン適応とトピックモデリングの精度との間に強い相互作用が示唆された。
関連論文リスト
- Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Exploring the Power of Topic Modeling Techniques in Analyzing Customer
Reviews: A Comparative Analysis [0.0]
大量のテキストデータをオンラインで分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。
本研究では,顧客レビューに特化して用いられる5つのトピックモデリング手法について検討・比較する。
以上の結果から,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。
論文 参考訳(メタデータ) (2023-08-19T08:18:04Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Domain-adaptation of spherical embeddings [0.0]
本研究では,埋め込み空間のグローバルなローテーションに対応する手法を開発し,ドメイン固有トレーニング中に単語や文書を更新する手法を提案する。
我々は,我々の戦略がWord2Vecと同じようなレベルにドメイン適応の性能コストを下げることができることを示した。
論文 参考訳(メタデータ) (2021-11-01T03:29:36Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。