Fugu-MT 論文翻訳(概要): GPT Self-Supervision for a Better Data Annotator

論文の概要: GPT Self-Supervision for a Better Data Annotator

arxiv url: http://arxiv.org/abs/2306.04349v2
Date: Thu, 8 Jun 2023 05:45:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 10:34:59.003092
Title: GPT Self-Supervision for a Better Data Annotator
Title（参考訳）: より良いデータアノテータのためのGPTセルフスーパービジョン
Authors: Xiaohuan Pei, Yanxi Li, Chang Xu
Abstract要約: 本稿では,GPT(Generative Pretrained Transformer)自己スーパービジョンアノテーション手法を提案する。提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。
参考スコア（独自算出の注目度）: 22.598300095822026
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of annotating data into concise summaries poses a significant challenge across various domains, frequently requiring the allocation of significant time and specialized knowledge by human experts. Despite existing efforts to use large language models for annotation tasks, significant problems such as limited applicability to unlabeled data, the absence of self-supervised methods, and the lack of focus on complex structured data still persist. In this work, we propose a GPT self-supervision annotation method, which embodies a generating-recovering paradigm that leverages the one-shot learning capabilities of the Generative Pretrained Transformer (GPT). The proposed approach comprises a one-shot tuning phase followed by a generation phase. In the one-shot tuning phase, we sample a data from the support set as part of the prompt for GPT to generate a textual summary, which is then used to recover the original data. The alignment score between the recovered and original data serves as a self-supervision navigator to refine the process. In the generation stage, the optimally selected one-shot sample serves as a template in the prompt and is applied to generating summaries from challenging datasets. The annotation performance is evaluated by tuning several human feedback reward networks and by calculating alignment scores between original and recovered data at both sentence and structure levels. Our self-supervised annotation method consistently achieves competitive scores, convincingly demonstrating its robust strength in various data-to-summary annotation tasks.
Abstract（参考訳）: 簡潔な要約にデータをアノテートする作業は、さまざまなドメインで大きな課題となり、人間の専門家による重要な時間と専門知識の割り当てをしばしば要求される。アノテーションタスクに大規模な言語モデルを使用するという既存の取り組みにもかかわらず、ラベルなしデータの適用可能性の制限、自己監督型メソッドの欠如、複雑な構造化データへのフォーカスの欠如といった重大な問題は依然として続いている。本稿では,生成事前学習型トランスフォーマ(GPT)のワンショット学習機能を活用した生成回収パラダイムを具現化したGPT自己スーパービジョンアノテーション手法を提案する。提案手法は1ショットのチューニングフェーズと生成フェーズから構成される。ワンショットチューニングフェーズでは、gptがテキスト要約を生成するためのプロンプトの一部としてサポートセットからデータをサンプリングし、元のデータを復元するために使用する。復元されたデータと元のデータのアライメントスコアは、プロセスを洗練するための自己超越ナビゲータとして機能する。生成段階では、最適な選択されたワンショットサンプルがプロンプトのテンプレートとして機能し、挑戦的なデータセットから要約を生成する。複数の人間フィードバック報酬ネットワークをチューニングし、文章と構造レベルで元のデータと回復したデータのアライメントスコアを算出し、アノテーション性能を評価する。自己教師付きアノテーション手法は,競争スコアを一貫して達成し,様々なデータ・ツー・サマリーアノテーションタスクにおいて強固な強みを示す。

関連論文リスト

It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文参考訳（メタデータ） (2026-02-12T16:31:01Z)
Not All Data are Good Labels: On the Self-supervised Labeling for Time Series Forecasting [18.25649205265032]
本稿では,候補データセットを自然に構築することで,時系列データセットを再ラベルする新たな自己教師型アプローチについて検討する。単純な再構成ネットワークの最適化において、中間体は自己管理パラダイムの擬似ラベルとして使用される。実世界の11のデータセットに対する実験により、SCAMは様々なバックボーンモデルの性能を一貫して改善することを示した。
論文参考訳（メタデータ） (2025-02-20T16:29:37Z)
Aspect-Oriented Summarization for Psychiatric Short-Term Readmission Prediction [1.3563640142303988]
大規模言語モデル(LLM)は、タスク固有のデータセットの教師付きトレーニングを必要とせずに、長いドキュメントを処理できる。長い複雑な入力を持つタスクに対して実現可能なアプローチの1つは、まず文書を要約し、次に教師付き微調整を要約に適用することである。本稿では,原文書の異なる重要な側面を捉えることを目的とした,長文の要約処理手法を提案する。
論文参考訳（メタデータ） (2025-02-14T18:59:28Z)
Weakly-Supervised Cross-Domain Segmentation of Electron Microscopy with Sparse Point Annotation [1.124958340749622]
カウント,検出,セグメンテーションタスク間の相関を利用したマルチタスク学習フレームワークを提案する。ラベル拡張のためのクロスポジションカット・アンド・ペーストを開発し,エントロピーに基づく擬似ラベル選択を行う。提案手法は, UDA法を著しく上回り, 教師付き手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2024-03-31T12:22:23Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文参考訳（メタデータ） (2022-06-06T16:11:58Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
Summary-Source Proposition-level Alignment: Task, Datasets and Supervised Baseline [94.0601799665342]
資料の参照要約における文のアライメントは,補助的な要約作業として有用であった。本稿では,2つの重要な新機能を導入しながら,要約ソースアライメントを明示的なタスクとして確立することを提案する。我々は提案レベルのアライメントのための新しいトレーニングデータセットを作成し、利用可能な要約評価データから自動的に抽出する。教師なしアプローチよりも優れたアライメント品質を示す教師付き命題アライメントベースラインモデルを提案する。
論文参考訳（メタデータ） (2020-09-01T17:27:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。