論文の概要: Self-Alignment with Instruction Backtranslation
- arxiv url: http://arxiv.org/abs/2308.06259v3
- Date: Tue, 12 Mar 2024 05:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:53:46.680266
- Title: Self-Alignment with Instruction Backtranslation
- Title(参考訳): インストラクション・バックトランスレーションによる自己アライメント
- Authors: Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke
Zettlemoyer, Jason Weston, Mike Lewis
- Abstract要約: 本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
- 参考スコア(独自算出の注目度): 162.02529653768096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a scalable method to build a high quality instruction following
language model by automatically labelling human-written text with corresponding
instructions. Our approach, named instruction backtranslation, starts with a
language model finetuned on a small amount of seed data, and a given web
corpus. The seed model is used to construct training examples by generating
instruction prompts for web documents (self-augmentation), and then selecting
high quality examples from among these candidates (self-curation). This data is
then used to finetune a stronger model. Finetuning LLaMa on two iterations of
our approach yields a model that outperforms all other LLaMa-based models on
the Alpaca leaderboard not relying on distillation data, demonstrating highly
effective self-alignment.
- Abstract(参考訳): 本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な言語モデルを構築するためのスケーラブルな手法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
シードモデルは、Webドキュメント(自己拡張)の命令プロンプトを生成し、これらの候補の中から高品質なサンプルを選択することで、トレーニング例を構築するために使用される。
このデータは、より強力なモデルを微調整するために使用される。
LLaMaを2回繰り返して微調整することで、Alpacaのリーダーボード上の他のLLaMaモデルよりも優れており、高い有効自己整合性を示すことができる。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Improving Sentence Embeddings with Automatic Generation of Training Data Using Few-shot Examples [13.946626388239443]
大規模な手書き注釈付きデータセットを使わずに文の埋め込みを改善することを目的としている。
数ショットの学習による自動データセット生成に注力し、数ショットの例を活用するための適切な方法を探る。
論文 参考訳(メタデータ) (2024-02-23T06:33:51Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - LongForm: Effective Instruction Tuning with Reverse Instructions [74.14035528786997]
本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
論文 参考訳(メタデータ) (2023-04-17T17:36:35Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Abstractive Text Summarization based on Language Model Conditioning and
Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。
さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。
我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文 参考訳(メタデータ) (2020-03-29T14:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。