論文の概要: GPT Self-Supervision for a Better Data Annotator
- arxiv url: http://arxiv.org/abs/2306.04349v2
- Date: Thu, 8 Jun 2023 05:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 10:34:59.003092
- Title: GPT Self-Supervision for a Better Data Annotator
- Title(参考訳): より良いデータアノテータのためのGPTセルフスーパービジョン
- Authors: Xiaohuan Pei, Yanxi Li, Chang Xu
- Abstract要約: 本稿では,GPT(Generative Pretrained Transformer)自己スーパービジョンアノテーション手法を提案する。
提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。
復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
- 参考スコア(独自算出の注目度): 22.598300095822026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of annotating data into concise summaries poses a significant
challenge across various domains, frequently requiring the allocation of
significant time and specialized knowledge by human experts. Despite existing
efforts to use large language models for annotation tasks, significant problems
such as limited applicability to unlabeled data, the absence of self-supervised
methods, and the lack of focus on complex structured data still persist. In
this work, we propose a GPT self-supervision annotation method, which embodies
a generating-recovering paradigm that leverages the one-shot learning
capabilities of the Generative Pretrained Transformer (GPT). The proposed
approach comprises a one-shot tuning phase followed by a generation phase. In
the one-shot tuning phase, we sample a data from the support set as part of the
prompt for GPT to generate a textual summary, which is then used to recover the
original data. The alignment score between the recovered and original data
serves as a self-supervision navigator to refine the process. In the generation
stage, the optimally selected one-shot sample serves as a template in the
prompt and is applied to generating summaries from challenging datasets. The
annotation performance is evaluated by tuning several human feedback reward
networks and by calculating alignment scores between original and recovered
data at both sentence and structure levels. Our self-supervised annotation
method consistently achieves competitive scores, convincingly demonstrating its
robust strength in various data-to-summary annotation tasks.
- Abstract(参考訳): 簡潔な要約にデータをアノテートする作業は、さまざまなドメインで大きな課題となり、人間の専門家による重要な時間と専門知識の割り当てをしばしば要求される。
アノテーションタスクに大規模な言語モデルを使用するという既存の取り組みにもかかわらず、ラベルなしデータの適用可能性の制限、自己監督型メソッドの欠如、複雑な構造化データへのフォーカスの欠如といった重大な問題は依然として続いている。
本稿では,生成事前学習型トランスフォーマ(GPT)のワンショット学習機能を活用した生成回収パラダイムを具現化したGPT自己スーパービジョンアノテーション手法を提案する。
提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。
ワンショットチューニングフェーズでは、gptがテキスト要約を生成するためのプロンプトの一部としてサポートセットからデータをサンプリングし、元のデータを復元するために使用する。
復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
生成段階では、最適な選択されたワンショットサンプルがプロンプトのテンプレートとして機能し、挑戦的なデータセットから要約を生成する。
複数の人間フィードバック報酬ネットワークをチューニングし、文章と構造レベルで元のデータと回復したデータのアライメントスコアを算出し、アノテーション性能を評価する。
自己教師付きアノテーション手法は,競争スコアを一貫して達成し,様々なデータ・ツー・サマリーアノテーションタスクにおいて強固な強みを示す。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Summary-Source Proposition-level Alignment: Task, Datasets and
Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。
本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。
我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。
教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文 参考訳(メタデータ) (2020-09-01T17:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。