論文の概要: AI on AI: Exploring the Utility of GPT as an Expert Annotator of AI Publications
- arxiv url: http://arxiv.org/abs/2403.09097v1
- Date: Thu, 14 Mar 2024 04:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:47:12.306962
- Title: AI on AI: Exploring the Utility of GPT as an Expert Annotator of AI Publications
- Title(参考訳): AI on AI - AIパブリケーションのエキスパートアノテーションとしてのGPTの有用性を探る
- Authors: Autumn Toney-Wails, Christian Schoeberl, James Dunham,
- Abstract要約: 我々は、AI研究の機能的定義を導入し、専門家データアノテーションのタスクに基づいて最先端のAIモデルを評価する。
arXivのパブリッシュデータベースを基盤として,GPTモデルのプロンプトエンジニアリングにより,代替の自動化された専門家用アノテーションパイプラインを識別する実験を行った。
比較のために、科学出版物で事前訓練されたトランスフォーマー言語モデルであるSPECTERを微調整し、AI出版物の分類において96%の精度(GPTよりわずか2%高い)を達成する。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying scientific publications that are within a dynamic field of research often requires costly annotation by subject-matter experts. Resources like widely-accepted classification criteria or field taxonomies are unavailable for a domain like artificial intelligence (AI), which spans emerging topics and technologies. We address these challenges by inferring a functional definition of AI research from existing expert labels, and then evaluating state-of-the-art chatbot models on the task of expert data annotation. Using the arXiv publication database as ground-truth, we experiment with prompt engineering for GPT chatbot models to identify an alternative, automated expert annotation pipeline that assigns AI labels with 94% accuracy. For comparison, we fine-tune SPECTER, a transformer language model pre-trained on scientific publications, that achieves 96% accuracy (only 2% higher than GPT) on classifying AI publications. Our results indicate that with effective prompt engineering, chatbots can be used as reliable data annotators even where subject-area expertise is required. To evaluate the utility of chatbot-annotated datasets on downstream classification tasks, we train a new classifier on GPT-labeled data and compare its performance to the arXiv-trained model. The classifier trained on GPT-labeled data outperforms the arXiv-trained model by nine percentage points, achieving 82% accuracy.
- Abstract(参考訳): 研究のダイナミックな分野にある科学出版物を特定するには、しばしば主観的な専門家による高価な注釈が必要である。
広く受け入れられている分類基準や分野分類学のようなリソースは、新たなトピックや技術にまたがる人工知能(AI)のような領域では利用できない。
既存の専門家ラベルからAI研究の機能的定義を推論し、専門家データアノテーションのタスク上で最先端のチャットボットモデルを評価することで、これらの課題に対処する。
arXivのパブリッシュデータベースを基盤として、GPTチャットボットモデルの迅速なエンジニアリングを実験して、AIラベルを94%の精度で割り当てる、代替の自動化された専門家アノテーションパイプラインを特定します。
比較のために、科学出版物で事前訓練されたトランスフォーマー言語モデルであるSPECTERを微調整し、AI出版物の分類において96%の精度(GPTよりわずか2%高い)を達成する。
その結果,効果的なプロンプトエンジニアリングでは,対象分野の専門知識が必要な場合でも,チャットボットを信頼性の高いデータアノテータとして使用することが可能であることが示唆された。
下流分類タスクにおけるチャットボットアノテートデータセットの有用性を評価するために,GPTラベルデータに基づく新しい分類器を訓練し,その性能をarXiv訓練モデルと比較する。
GPTラベルデータに基づいて訓練された分類器は、arXiv学習モデルよりも9ポイント優れ、精度は82%である。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Detecting AI Generated Text Based on NLP and Machine Learning Approaches [0.0]
自然言語処理の最近の進歩により、AIモデルは将来、人間が書いた書式と同一の書体を生成することができる。
これには深い倫理的、法的、社会的反感があるかもしれない。
本手法は,電子テキストと人文テキストを区別する機械学習手法を含む。
論文 参考訳(メタデータ) (2024-04-15T16:37:44Z) - Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
粗悪な品質データは不正確で非効率なAIモデルを生成する。
データ品質の改善に多くの研究開発努力が費やされている。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:19:57Z) - Automated Annotation of Scientific Texts for ML-based Keyphrase
Extraction and Validation [0.0]
ラベルなしテキストに対するML生成メタデータの検証のための2つの新しいテキストラベリング手法を提案する。
本手法は,未ラベルテキストと科学領域に関する既存の情報を活用する2つの新しい手法の可能性を示す。
論文 参考訳(メタデータ) (2023-11-08T22:09:31Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。