論文の概要: TeGit: Generating High-Quality Instruction-Tuning Data with
Text-Grounded Task Design
- arxiv url: http://arxiv.org/abs/2309.05447v1
- Date: Mon, 11 Sep 2023 13:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:37:26.581662
- Title: TeGit: Generating High-Quality Instruction-Tuning Data with
Text-Grounded Task Design
- Title(参考訳): TeGit: テキスト中心タスク設計による高品質インストラクションチューニングデータの生成
- Authors: Yongrui Chen, Haiyun Jiang, Xinting Huang, Shuming Shi, Guilin Qi
- Abstract要約: 既存のデータ収集方法は、非現実的な手動ラベリングコストや、LLM生成のみに依存する幻覚によって制限される。
本稿では,人文テキストに基づいてタスクを自動設計する学習言語モデルを用いて,高品質な指導適応データを自動的に収集するスケーラブルな手法を提案する。
- 参考スコア(独自算出の注目度): 44.946270606992776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality instruction-tuning data is critical to improving LLM
capabilities. Existing data collection methods are limited by unrealistic
manual labeling costs or by the hallucination of relying solely on LLM
generation. To address the problems, this paper presents a scalable method to
automatically collect high-quality instructional adaptation data by training
language models to automatically design tasks based on human-written texts.
Intuitively, human-written text helps to help the model attenuate illusions
during the generation of tasks. Unlike instruction back-translation-based
methods that directly take the given text as a response, we require the model
to generate the \textit{instruction}, \textit{input}, and \textit{output}
simultaneously to filter the noise. The results of the automated and manual
evaluation experiments demonstrate the quality of our dataset.
- Abstract(参考訳): 高品質な命令チューニングデータはLLMの性能向上に不可欠である。
既存のデータ収集方法は、非現実的な手動ラベリングコストやllm生成のみに依存する幻覚によって制限される。
そこで本研究では,言語モデルを用いて高品質な指導適応データを自動的に収集し,人文テキストに基づくタスクの自動設計を行うスケーラブルな手法を提案する。
直感的には、人間の文章は、モデルがタスクの生成中に錯覚を弱めるのに役立つ。
与えられたテキストを直接応答として取る命令バックトランスレーションベースのメソッドとは異なり、ノイズをフィルタリングするためには、モデルが同時に \textit{instruction}, \textit{input}, \textit{output} を生成する必要がある。
自動および手動による評価実験の結果,データセットの品質が示された。
関連論文リスト
- Improving Sentence Embeddings with an Automatically Generated NLI
Dataset [15.235687410343171]
デコーダベースの大規模言語モデル(LLM)は、自然言語処理における多くのタスクにおいて高いパフォーマンスを示している。
我々は,NLIデータセットを自動生成することで,教師なし環境で学習した文の埋め込みを改善することを目的とする。
STSタスク実験において, 提案手法は, 平均スピアマンランク相関係数82.21を人体評価で達成した。
論文 参考訳(メタデータ) (2024-02-23T06:33:51Z) - Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Efficient Pre-training for Localized Instruction Generation of Videos [32.13509517228516]
手順ビデオは、レシピの準備のようなタスクのステップバイステップのデモを見せている。
ステップのアノテートと命令の記述にはコストがかかり、現在のデータセットのサイズが制限される。
より小さなデータセットを自動的にキュレートする手法であるSieve-&-Swapを提案する。
論文 参考訳(メタデータ) (2023-11-27T16:07:37Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。