論文の概要: GPT Self-Supervision for a Better Data Annotator
- arxiv url: http://arxiv.org/abs/2306.04349v1
- Date: Wed, 7 Jun 2023 11:33:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:50:23.145255
- Title: GPT Self-Supervision for a Better Data Annotator
- Title(参考訳): より良いデータアノテータのためのGPTセルフスーパービジョン
- Authors: Xiaohuan Pei, Yanxi Li, Chang Xu
- Abstract要約: 本稿では,GPT(Generative Pretrained Transformer)自己スーパービジョンアノテーション手法を提案する。
提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。
復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
- 参考スコア(独自算出の注目度): 22.598300095822026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of annotating data into concise summaries poses a significant
challenge across various domains, frequently requiring the allocation of
significant time and specialized knowledge by human experts. Despite existing
efforts to use large language models for annotation tasks, significant problems
such as limited applicability to unlabeled data, the absence of self-supervised
methods, and the lack of focus on complex structured data still persist. In
this work, we propose a GPT self-supervision annotation method. This method
embodies a generating-recovering paradigm that leverages the capabilities of
one-shot learning capabilities in Generative Pretrained Transformer (GPT). The
proposed approach comprises a one-shot tuning phase followed by a generation
phase. In the one-shot tuning phase, we sample a data from the support set as
part of the prompt for GPT to generate a textual summary, which is then used to
recover the original data. The alignment score between the recovered and
original data serves as a self-supervision navigator to refine the process. In
the generation stage, the optimally selected one-shot sample serves as a
template in the prompt and is applied to generating summaries from challenging
datasets. The annotation performance is evaluated by tuning several human
feedback reward networks and by calculating alignment scores between original
and recovered data at both sentence and structure levels. Our self-supervised
annotation method consistently achieves competitive scores, convincingly
demonstrating its robust strength in various data-to-summary annotation tasks.
- Abstract(参考訳): 簡潔な要約にデータをアノテートする作業は、さまざまなドメインで大きな課題となり、人間の専門家による重要な時間と専門知識の割り当てをしばしば要求される。
アノテーションタスクに大規模な言語モデルを使用するという既存の取り組みにもかかわらず、ラベルなしデータの適用可能性の制限、自己監督型メソッドの欠如、複雑な構造化データへのフォーカスの欠如といった重大な問題は依然として続いている。
本稿では,GPT自己スーパービジョンアノテーション手法を提案する。
本手法は,GPT(Generative Pretrained Transformer)におけるワンショット学習機能を活用した生成回収パラダイムを実現する。
提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。
ワンショットチューニングフェーズでは、gptがテキスト要約を生成するためのプロンプトの一部としてサポートセットからデータをサンプリングし、元のデータを復元するために使用する。
復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
生成段階では、最適な選択されたワンショットサンプルがプロンプトのテンプレートとして機能し、挑戦的なデータセットから要約を生成する。
複数の人間フィードバック報酬ネットワークをチューニングし、文章と構造レベルで元のデータと回復したデータのアライメントスコアを算出し、アノテーション性能を評価する。
自己教師付きアノテーション手法は,競争スコアを一貫して達成し,様々なデータ・ツー・サマリーアノテーションタスクにおいて強固な強みを示す。
関連論文リスト
- Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation [1.124958340749622]
カウント,検出,セグメンテーションタスク間の相関を利用したマルチタスク学習フレームワークを提案する。
ラベル拡張のためのクロスポジションカット・アンド・ペーストを開発し,エントロピーに基づく擬似ラベル選択を行う。
提案手法は, UDA法を著しく上回り, 教師付き手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2024-03-31T12:22:23Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。