Fugu-MT 論文翻訳(概要): Generate labeled training data using Prompt Programming and GPT-3. An example of Big Five Personality Classification

論文の概要: Generate labeled training data using Prompt Programming and GPT-3. An example of Big Five Personality Classification

arxiv url: http://arxiv.org/abs/2303.12279v1
Date: Wed, 22 Mar 2023 03:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 15:27:23.171918
Title: Generate labeled training data using Prompt Programming and GPT-3. An example of Big Five Personality Classification
Title（参考訳）: Prompt ProgrammingとGPT-3を使ってラベル付きトレーニングデータを生成する。 Big Five Personality 分類の一例
Authors: Eason Chen
Abstract要約: GPT-3におけるプロンプトプログラミングを用いて、ビッグファイブパーソナリティ特性をラベル付けした25,000の会話を生成する。そして、これらのデータを用いてBig Five分類モデルをトレーニングし、生成した対話データと人間のアノテーションによってBig Fiveにラベル付けされた実際の会話データセットから2500データで評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We generated 25000 conversations labeled with Big Five Personality traits using prompt programming at GPT-3. Then we train Big Five classification models with these data and evaluate them with 2500 data from generated dialogues and real conversational datasets labeled in Big Five by human annotators. The results indicated that this approach is promising for creating effective training data. We then compare the performance by different training approaches and models. Our results suggest that using Adapter-Transformers and transfer learning from pre-trained RoBERTa sentiment analysis model will perform best with the generated data. Our best model obtained an accuracy of 0.71 in generated data and 0.65 in real datasets. Finally, we discuss this approach's potential limitations and confidence metric.
Abstract（参考訳）: GPT-3におけるプロンプトプログラミングを用いて,ビッグファイブパーソナリティ特性をラベル付けした25,000の会話を生成する。そして、これらのデータを用いてBig Five分類モデルをトレーニングし、生成した対話データと人間のアノテーションによってBig Fiveにラベル付けされた実際の会話データセットから2500データで評価する。その結果,本手法は効果的なトレーニングデータ作成に有効であることが示唆された。そして、異なるトレーニングアプローチとモデルでパフォーマンスを比較します。この結果から,事前学習したRoBERTa感情分析モデルから,Adapter-Transformer とTransfer Learning を用いることで,生成したデータを最大限に活用できることが示唆された。我々の最良のモデルは、生成データで 0.71、実データで 0.65 の精度を得た。最後に、このアプローチの潜在的な限界と信頼度について論じる。

関連論文リスト

APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。 xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文参考訳（メタデータ） (2025-04-04T17:13:57Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Improving Classification Performance With Human Feedback: Label a few, we label the rest [2.7386128680964408]
本稿では,連続フィードバックループがモデルをどのように洗練し,精度,リコール,精度を向上させるかを理解することに焦点を当てる。このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を上回ります。
論文参考訳（メタデータ） (2024-01-17T19:13:05Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
Investigating Pre-trained Language Models on Cross-Domain Datasets, a Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文参考訳（メタデータ） (2023-06-21T11:55:17Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。一つの例から5つの例への適応が可能であることを示す。本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文参考訳（メタデータ） (2021-03-31T09:05:43Z)
Chatbot Interaction with Artificial Intelligence: Human Data Augmentation with T5 and Language Transformer Ensemble for Text Classification [2.492300648514128]
本稿では,タスク分類のための深層学習チャットボットの訓練へのアプローチとして,人工知能(CI-AI)フレームワークを提案する。このインテリジェントシステムは、大量のトレーニングデータを生成するために、人工的なパラフレーズによって人為的なデータを増強する。トレーニングデータをT5モデルで拡張すると,すべてのモデルが改善されることがわかった。
論文参考訳（メタデータ） (2020-10-12T19:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。