論文の概要: CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency
- arxiv url: http://arxiv.org/abs/2508.16100v1
- Date: Fri, 22 Aug 2025 05:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.256761
- Title: CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency
- Title(参考訳): CYCLE-INSTRUCT:Dual Self-TrainingとCycle Consistencyによるフルシードフリーインストラクションチューニング
- Authors: Zhanming Shen, Hao Chen, Yulei Tang, Shaolin Zhu, Wentao Ye, Xiaomeng Hu, Haobo Wang, Gang Chen, Junbo Zhao,
- Abstract要約: Cycle-Instructは、完全に種なしの命令チューニングを実現する新しいフレームワークである。
サイクル一貫性にインスパイアされたCycle-Instructは、2つのモデル-答え生成器と質問生成器-は、生のラベルなしテキストのみからブートストラップされる二重自己学習ループを採用している。
実験の結果,Cycle-Instructはシード駆動のバックトランスレーションベースラインを上回るだけでなく,強い教師付き手法に匹敵する性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 31.636970128351454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning is vital for aligning large language models (LLMs) with human intent, but current methods typically rely on costly human-annotated seed data or powerful external teacher models. While instruction back-translation techniques reduce this dependency, they remain fundamentally tethered to an initial seed set, which limits full automation, introduces biases, and can lead to inefficient use of unlabeled corpora. In this paper, we propose Cycle-Instruct, a novel framework that achieves fully seed-free instruction tuning. Inspired by cycle consistency, Cycle-Instruct employs a dual self-training loop where two models-an answer generator and a question generator-are bootstrapped solely from raw, unlabeled text. These models mutually supervise each other by reconstructing original text segments from their counterpart's generated pseudo-labels, effectively learning from the intrinsic structure of the data without any human-provided seeds. We demonstrate Cycle-Instruct's efficacy across four diverse data tracks, including general instruction-following, domain-specific tasks, dialogue logs, and plain text. Our extensive experiments show that Cycle-Instruct not only outperforms seed-driven back-translation baselines but also achieves performance comparable to strongly supervised methods.
- Abstract(参考訳): インストラクションチューニングは、大きな言語モデル(LLM)を人間の意図と整合させるのに不可欠であるが、現在の手法は通常、コストのかかる人為的なシードデータや強力な外部教師モデルに依存している。
命令のバックトランスレーション技術は、この依存性を減少させるが、それらは基本的に、完全な自動化を制限し、バイアスを導入し、ラベルなしコーパスの非効率な使用につながる最初のシードセットに結び付けられている。
本稿では,完全に種なしの命令チューニングを実現する新しいフレームワークであるCycle-Instructを提案する。
サイクル一貫性にインスパイアされたCycle-Instructは、2つのモデル-答え生成器と質問生成器-は、生のラベルなしテキストのみからブートストラップされる二重自己学習ループを採用している。
これらのモデルは、生成した擬似ラベルから原文セグメントを再構築することで相互に監視し、人間が提供した種を使わずにデータの本質的な構造から効果的に学習する。
一般的な命令フォロー、ドメイン固有のタスク、対話ログ、プレーンテキストを含む4つのデータトラックでCycle-Instructの有効性を実証する。
大規模な実験により、Cycle-Instructは、シード駆動のバックトランスレーションベースラインを上回るだけでなく、強力な教師付き手法に匹敵する性能を達成できることが示された。
関連論文リスト
- Instruct-SCTG: Guiding Sequential Controlled Text Generation through
Instructions [42.67608830386934]
Instruct-SCTGは、命令調整言語モデルを利用して構造的に一貫性のあるテキストを生成するシーケンシャルフレームワークである。
本フレームワークは,自然言語命令を用いて,所望の人体構造に整合して記事を生成する。
論文 参考訳(メタデータ) (2023-12-19T16:20:49Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。
すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。
InSTRUCTORを70の埋め込み評価タスクで評価する。
論文 参考訳(メタデータ) (2022-12-19T18:57:05Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。