論文の概要: Instructive Decoding: Instruction-Tuned Large Language Models are
Self-Refiner from Noisy Instructions
- arxiv url: http://arxiv.org/abs/2311.00233v2
- Date: Sat, 17 Feb 2024 09:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:11:10.996844
- Title: Instructive Decoding: Instruction-Tuned Large Language Models are
Self-Refiner from Noisy Instructions
- Title(参考訳): インストラクティブデコーディング:インストラクティブチューニングされた大規模言語モデルはノイズインストラクティブからの自己リファインダーである
- Authors: Taehyeon Kim, Joonkee Kim, Gihun Lee, Se-Young Yun
- Abstract要約: 本稿では,インストラクティブ・デコーディング(Instructive Decoding, ID)を提案する。
IDは、元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。
ランダムな単語を介して意味的ノイズを挿入するものから、逸脱した応答を誘発する「オポジット」のような他のものまで、このようなノイズの多い命令のスペクトルにわたって実験を行う。
- 参考スコア(独自算出の注目度): 26.192531184689763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While instruction-tuned language models have demonstrated impressive
zero-shot generalization, these models often struggle to generate accurate
responses when faced with instructions that fall outside their training set.
This paper presents Instructive Decoding (ID), a simple yet effective approach
that augments the efficacy of instruction-tuned models. Specifically, ID
adjusts the logits for next-token prediction in a contrastive manner, utilizing
predictions generated from a manipulated version of the original instruction,
referred to as a noisy instruction. This noisy instruction aims to elicit
responses that could diverge from the intended instruction yet remain
plausible. We conduct experiments across a spectrum of such noisy instructions,
ranging from those that insert semantic noise via random words to others like
'opposite' that elicit the deviated responses. Our approach achieves
considerable performance gains across various instruction-tuned models and
tasks without necessitating any additional parameter updates. Notably,
utilizing 'opposite' as the noisy instruction in ID, which exhibits the maximum
divergence from the original instruction, consistently produces the most
significant performance gains across multiple models and tasks.
- Abstract(参考訳): 命令調整言語モデルは印象的なゼロショット一般化を示しているが、これらのモデルはトレーニングセットの外にある命令に直面すると、正確な応答を生成するのに苦労することが多い。
本稿では,インストラクティブ・デコーディング(Instructive Decoding,ID)を提案する。
特に、IDは、ノイズのある命令と呼ばれる元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。
このノイズのある命令は、意図した命令から分岐する可能性のある応答を導き出すことを目的としている。
我々は,無作為な単語に意味的ノイズを挿入するものから,逸脱した応答を誘発する「提案」のような他のものまで,ノイズのある命令のスペクトルをまたいで実験を行う。
提案手法は,追加のパラメータ更新を必要とせずに,各種命令調整モデルやタスクに対して大幅な性能向上を実現する。
特に、"opposite" を元の命令から最大のばらつきを示す ID のノイズインストラクションとして利用することで、複数のモデルやタスク間で、最も顕著なパフォーマンス向上を実現している。
関連論文リスト
- From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。
我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2024-05-30T07:54:07Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Instruction-following Evaluation through Verbalizer Manipulation [64.73188776428799]
本稿では,動詞操作と呼ばれる新しい指示追従評価プロトコルを提案する。
モデルにタスクラベルを、異なる範囲のモデル先行と整合した単語で言語化するように指示する。
異なる家族や規模にわたるモデルの指示追従能力は、より自然な話し手の性能によって著しく異なることが観察された。
論文 参考訳(メタデータ) (2023-07-20T03:54:24Z) - Evaluating the Zero-shot Robustness of Instruction-tuned Language Models [23.488398944358643]
新規な(観測されていない)が適切な命令表現を用いることで、モデル性能は一貫して低下することがわかった。
本稿では,ソフトプロンプトの埋め込みパラメータを導入することで,この問題を軽減するための簡単な手法を提案する。
本手法は命令調整モデルのロバスト性を常に改善することを示す。
論文 参考訳(メタデータ) (2023-06-20T03:48:51Z) - Enhancing Large Language Models Against Inductive Instructions with
Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。
広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。
異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-23T06:38:20Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。