論文の概要: Revealing the Inherent Instructability of Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2410.02465v2
- Date: Sun, 16 Feb 2025 13:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:46.655468
- Title: Revealing the Inherent Instructability of Pre-Trained Language Models
- Title(参考訳): 事前学習型言語モデルの創発的インストラクタビリティに関する研究
- Authors: Seokhyun An, Minji Kim, Hyounghun Kim,
- Abstract要約: 本稿では,RT(Response Tuning)が命令とそれに対応する対応マッピングを命令チューニングから取り除くことを示す。
実験の結果、RTは応答のみに基づいて訓練され、広範囲の指示に効果的に反応し、訓練対象に近づきやすいことを示すことができた。
- 参考スコア(独自算出の注目度): 9.504992236994697
- License:
- Abstract: Instruction tuning -- supervised fine-tuning using instruction-response pairs -- is a key step in making pre-trained large language models (LLMs) instructable. Meanwhile, LLMs perform multitask learning during their pre-training, acquiring extensive knowledge and capabilities. We hypothesize that the pre-training stage can enable them to develop the ability to comprehend and address instructions. To verify this, we propose Response Tuning (RT), which removes the instruction and its corresponding mapping to the response from instruction tuning. Instead, it focuses solely on establishing the response distribution. Our experiments demonstrate that RT models, trained only on responses, can effectively respond to a wide range of instructions and exhibit helpfulness approaching that of their instruction-tuned counterparts. In addition, we observe that the models can recognize and reject unsafe queries after learning the refusal conditions from training responses. Furthermore, we demonstrate that these observations also hold in an in-context learning setting. These findings support our hypothesis, highlighting the extensive inherent capabilities of pre-trained LLMs.
- Abstract(参考訳): インストラクションチューニング -- 命令-レスポンスペアを使用した教師付き微調整 -- は、トレーニング済みの大規模言語モデル(LLM)をインストラクション可能にするための重要なステップである。
一方、LLMは事前学習中にマルチタスク学習を行い、幅広い知識と能力を得る。
我々は、事前学習段階が、命令を理解して対処する能力の開発を可能にすると仮定する。
これを検証するために、命令のチューニングから応答に対する命令と対応するマッピングを除去するResponse Tuning (RT)を提案する。
代わりに、応答分布の確立にのみ焦点をあてる。
実験により、RTモデルは応答のみに基づいて訓練され、広範囲の命令に効果的に応答し、訓練対象の命令に近づきやすいことを示す。
さらに,モデルがトレーニング応答から拒否条件を学習した後,安全でないクエリを認識・拒否できることを観察した。
さらに,これらの観察は文脈内学習環境においても有効であることを示す。
これらの知見は, 事前学習したLLMの広範な特性を浮き彫りにした仮説を裏付けるものである。
関連論文リスト
- ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Find the Intention of Instruction: Comprehensive Evaluation of Instruction Understanding for Large Language Models [8.020688053947547]
LLM(Large Language Models)の重要な強みの1つは、与えられた指示に対する適切な応答を生成することによって、人間と対話する能力である。
この能力は命令追従能力として知られ、様々な分野におけるLSMの使用の基礎を確立している。
我々は、LLMが命令形式文によって容易に気を散らすことができ、それによって命令理解スキルの監視に繋がる可能性があることを指摘した。
論文 参考訳(メタデータ) (2024-12-27T04:37:39Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。
幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。
本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:32:45Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Learning Action Conditions from Instructional Manuals for Instruction Understanding [48.52663250368341]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。
本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文 参考訳(メタデータ) (2022-05-25T00:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。