論文の概要: DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping
- arxiv url: http://arxiv.org/abs/2309.05447v2
- Date: Sat, 25 May 2024 10:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:08:44.342680
- Title: DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping
- Title(参考訳): DoG-Instruct: テキスト・グラウンド・インストラクション・ラッピングによるプレミアム・インストラクション・チューニングデータを目指して
- Authors: Yongrui Chen, Haiyun Jiang, Xinting Huang, Shuming Shi, Guilin Qi,
- Abstract要約: 本稿では,高品質な命令応答対を見つけるためのスケーラブルな解法を提案する。
文脈のない自己生成にのみ依存するのではなく、人間による文書に基づくペアを生成するためにLLMを訓練する。
提案手法は,幻覚を減らし,文書の表現をLLMでラップする手法である。
- 参考スコア(独自算出の注目度): 41.89443082174044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The improvement of LLMs' instruction-following capabilities relies heavily on the availability of high-quality instruction-response pairs. Unfortunately, the current methods used to collect the pairs suffer from either unaffordable labor costs or severe hallucinations in the self-generation of LLM. To tackle these challenges, this paper proposes a scalable solution. It involves training LLMs to generate instruction-response pairs based on human-written documents, rather than relying solely on self-generation without context. Our proposed method not only exploits the advantages of human-written documents in reducing hallucinations but also utilizes an LLM to wrap the expression of documents, which enables us to bridge the gap between various document styles and the standard AI response. Experiments demonstrate that our method outperforms existing typical methods on multiple benchmarks. In particular, compared to the best-performing baseline, the LLM trained using our generated dataset exhibits a 10\% relative improvement in performance on AlpacaEval, despite utilizing only 1/5 of its training data. Furthermore, a comprehensive manual evaluation validates the quality of the data we generated. Our trained wrapper is publicly available at https://github.com/Bahuia/Dog-Instruct.
- Abstract(参考訳): LLMの命令追従能力の改善は、高品質な命令応答対の可用性に大きく依存している。
残念なことに、このペアを回収する現在の方法は、LLMの自己世代における不利な労働コストまたは深刻な幻覚に悩まされている。
これらの課題に対処するために,本稿ではスケーラブルなソリューションを提案する。
文脈のない自己生成のみに頼るのではなく、人間による文書に基づく命令応答ペアを生成するためにLSMを訓練する。
提案手法は,幻覚を減らし,文書表現をLLMでラップするだけでなく,文書形式と標準AI応答とのギャップを埋めることを可能にする。
実験により,本手法は複数のベンチマークにおいて既存手法よりも優れていることが示された。
特に、最も優れたベースラインと比較して、我々の生成したデータセットを用いてトレーニングしたLCMは、トレーニングデータの1/5しか利用していないにもかかわらず、AlpacaEval上での相対的なパフォーマンス改善を10倍に示す。
さらに、包括的な手作業による評価は、私たちが生成したデータの品質を評価する。
トレーニング済みラッパーはhttps://github.com/Bahuia/Dog-Instruct.comで公開されています。
関連論文リスト
- Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - InstUPR : Instruction-based Unsupervised Passage Reranking with Large Language Models [35.067998820937284]
InstUPRは、大規模言語モデル(LLM)に基づく教師なしパスのランク付け手法である。
ソフトスコアアグリゲーション手法を導入し、教師なしパスの再ランクにペアワイズ・リランクを採用する。
BEIRベンチマークの実験では、InstUPRは教師なしベースラインと命令調整されたリランカよりも優れていた。
論文 参考訳(メタデータ) (2024-03-25T05:31:22Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - CoachLM: Automatic Instruction Revisions Improve the Data Quality in LLM Instruction Tuning [32.54921739100195]
提案するCoachLMは,データセット内のサンプルを自動的に修正することで,命令データセットの品質を高める新しい手法である。
CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。
結果から,CoachLMは命令調整LDMの指示追従能力を平均29.9%改善することがわかった。
論文 参考訳(メタデータ) (2023-11-22T09:04:57Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。