論文の概要: Generative AI for automatic topic labelling
- arxiv url: http://arxiv.org/abs/2408.07003v1
- Date: Tue, 13 Aug 2024 16:07:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 16:55:31.506474
- Title: Generative AI for automatic topic labelling
- Title(参考訳): トピックの自動ラベリングのための生成AI
- Authors: Diego Kozlowski, Carolina Pradier, Pierre Benz,
- Abstract要約: 本稿では,トピックラベリングのための3つのLPM(Flan, GPT-4o, GPT-4 mini)の信頼性を評価することを提案する。
スイスのすべての生物学教授が作成した科学論文のデータセットからトピックを生成します。
まず、両方のGPTモデルが、モデルの出力キーワードからトピックを正確に正確にラベル付けできることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Topic Modeling has become a prominent tool for the study of scientific fields, as they allow for a large scale interpretation of research trends. Nevertheless, the output of these models is structured as a list of keywords which requires a manual interpretation for the labelling. This paper proposes to assess the reliability of three LLMs, namely flan, GPT-4o, and GPT-4 mini for topic labelling. Drawing on previous research leveraging BERTopic, we generate topics from a dataset of all the scientific articles (n=34,797) authored by all biology professors in Switzerland (n=465) between 2008 and 2020, as recorded in the Web of Science database. We assess the output of the three models both quantitatively and qualitatively and find that, first, both GPT models are capable of accurately and precisely label topics from the models' output keywords. Second, 3-word labels are preferable to grasp the complexity of research topics.
- Abstract(参考訳): トピックモデリングは、研究トレンドの大規模な解釈を可能にするため、科学分野の研究において顕著なツールとなっている。
それでも、これらのモデルの出力は、ラベル付けのマニュアル解釈を必要とするキーワードのリストとして構成されている。
本稿では,トピックラベリングのための3つのLPM(Flan, GPT-4o, GPT-4 mini)の信頼性を評価することを提案する。
BERTopicを利用した以前の研究に基づいて、2008年から2020年にかけてスイスの全生物学教授(n=465)が作成したすべての科学論文(n=34,797)のデータセットからトピックを生成し、Web of Scienceデータベースに記録した。
まず、GPTモデルがモデルの出力キーワードからトピックを正確に正確にラベル付けできることを示す。
第二に、3ワードラベルは研究トピックの複雑さを理解するのに好ましい。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Exploring the Latest LLMs for Leaderboard Extraction [0.3072340427031969]
本稿では, LLMs-ralMist 7B, Llama GPT-4-Turbo, GPT-4.o を用いて, 実験的なAI研究論文からリーダボード情報を抽出する方法について検討する。
本研究は,これらのモデルを用いて,研究論文からの4倍率(Task,Metric,Score)の生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-06T05:54:45Z) - Understanding Survey Paper Taxonomy about Large Language Models via
Graph Representation Learning [2.88268082568407]
我々は,調査論文を分類学に自動的に割り当てる手法を開発した。
本研究は,共分類グラフ上でのグラフ構造情報の活用が言語モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-16T02:21:59Z) - The Effect of Metadata on Scientific Literature Tagging: A Cross-Field
Cross-Model Study [29.965010251365946]
メタデータが19分野にわたる科学文献のタグ付けに与える影響を体系的に研究した。
全分野にわたるメタデータの効果のユビキタスなパターンを観察する。
論文 参考訳(メタデータ) (2023-02-07T09:34:41Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Two Huge Title and Keyword Generation Corpora of Research Articles [0.0]
本稿では,テキスト要約(OAGSX)とキーワード生成(OAGKX)の2つの巨大なデータセットを紹介する。
データは、研究プロファイルと出版物のネットワークであるOpen Academic Graphから取得された。
より具体的な分野から研究論文のサブセットを導出するために、この2つの集合にトピックモデリングを適用したい。
論文 参考訳(メタデータ) (2020-02-11T21:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。