Fugu-MT 論文翻訳(概要): From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning

論文の概要: From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning

arxiv url: http://arxiv.org/abs/2310.00492v2
Date: Fri, 16 Feb 2024 19:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 05:47:00.441852
Title: From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning
Title（参考訳）: 言語モデルから命令追従へ:命令チューニング後のllmにおける振る舞いシフトの理解
Authors: Xuansheng Wu, Wenlin Yao, Jianshu Chen, Xiaoman Pan, Xiaoyang Wang, Ninghao Liu, Dong Yu
Abstract要約: そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較して、命令チューニングの影響について研究する。
参考スコア（独自算出の注目度）: 66.82960120533544
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success, where instruction tuning is the critical step in aligning LLMs with user intentions. In this work, we investigate how the instruction tuning adjusts pre-trained models with a focus on intrinsic changes. Specifically, we first develop several local and global explanation methods, including a gradient-based method for input-output attribution and techniques for interpreting patterns and concepts in self-attention and feed-forward layers. The impact of instruction tuning is then studied by comparing the explanations derived from the pre-trained and instruction-tuned models. This approach provides an internal perspective of the model shifts on a human-comprehensible level. Our findings reveal three significant impacts of instruction tuning: 1) It empowers LLMs to recognize the instruction parts from user prompts, and promotes the response generation constantly conditioned on user instructions. 2) It encourages the self-attention heads to capture more word-word relationships about instruction verbs. 3) It encourages the feed-forward networks to rotate their pre-trained knowledge toward user-oriented tasks. These insights contribute to a more comprehensive understanding of instruction tuning and lay the groundwork for future work that aims at interpreting and optimizing LLMs for various applications.
Abstract（参考訳）: 大規模言語モデル(llm)は大きな成功を収め、命令チューニングがllmをユーザの意図に合わせる上で重要なステップである。本研究は,本質的な変化に着目した事前学習モデルの調整方法について検討する。具体的には,まず,入力出力帰属のためのグラデーションベース手法や,セルフアテンション層やフィードフォワード層におけるパターンや概念を解釈する手法など,局所的および大域的な説明手法を考案した。次に、事前学習モデルと命令調整モデルから導出される説明を比較して、命令チューニングの影響について検討する。このアプローチは、人間の理解可能なレベルでのモデルシフトの内部的な視点を提供する。私たちの発見は、命令チューニングの3つの重要な影響を示しています。 1) LLM にユーザプロンプトから命令部品を認識する権限を与え,ユーザインストラクションに常に調和した応答生成を促進する。 2) 指示動詞に関する単語関係をより多く捉えるために, 自己照会ヘッドを奨励する。 3)フィードフォワードネットワークは,事前学習した知識をユーザ指向のタスクに向けて回転させる。これらの知見は、命令チューニングのより包括的な理解に寄与し、様々な用途にLLMを解釈し最適化することを目的とした将来の研究の基盤となる。

関連論文リスト

Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions [20.58878416527427]
視覚的指示とLMMのベース言語モデル(LLM)の間にはかなりの書法差があることを論じる。そこで本研究では,軟式視覚命令の書き方とベースLLM自体の書き方とを整合させるために,ベースLLMを活用することを提案する。
論文参考訳（メタデータ） (2025-03-24T03:59:06Z)
Do LLMs "know" internally when they follow instructions? [7.87370534634794]
大規模言語モデル (LLM) が命令追従の成功と相関する表現に情報をエンコードするかどうかを検討する。本分析では,入力埋め込み空間の方向を指示追従次元と呼び,応答が与えられた命令に適合するかどうかを予測する。この次元に沿った表現の修正は、ランダムな変化に比べて、命令追従の成功率を改善することを実証する。
論文参考訳（メタデータ） (2024-10-18T14:55:14Z)
Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs [4.096028601599825]
パブリック使用のための大規模言語モデル(LLM)は、最新のデータと最新の状態を維持するために、継続的な事前トレーニングを必要とする。本研究では、命令データや微調整を必要とせず、最新の知識と命令追従能力を得るための最も計算効率の良い戦略を見つけることを目的とする。
論文参考訳（メタデータ） (2024-10-14T17:20:30Z)
SwitchCIT: Switching for Continual Instruction Tuning of Large Language Models [14.085371250265224]
大規模言語モデル(LLM)は、様々な領域、特に一般的な言語理解において印象的な能力を発揮している。しかし、これらのモデルは大量のテキストデータに基づいて訓練されており、命令によって引き起こされる特定のタスクに対して微妙に最適化されていないかもしれない。本研究は, LLMの連続的な命令学習において, パラメータ効率の高いチューニングモデルに演算をルーティングする切替機構を通じて, 破滅的な忘れに対処するものである。
論文参考訳（メタデータ） (2024-07-16T14:37:33Z)
Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。 C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文参考訳（メタデータ） (2024-07-10T07:37:20Z)
Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning [13.535110749767451]
キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-15T06:54:20Z)
Demystifying Instruction Mixing for Fine-tuning Large Language Models [29.69436955342966]
本研究は,NLPダウンストリームタスク,コーディング,一般的なチャットという,命令を3つの主要なタイプに分類する。特定の命令型は特定のアプリケーションに対してより有利であるが、他の領域に悪影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-12-17T18:44:26Z)
RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文参考訳（メタデータ） (2023-11-18T03:05:43Z)
Context-Aware Prompt Tuning for Vision-Language Model with Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。 DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-09-08T06:51:15Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Enhancing Large Language Models Against Inductive Instructions with Dual-critique Prompting [55.15697111170836]
本稿では,大規模言語モデル(LLM)のテクスト誘導的指示に対する行動を明らかにするとともに,その真しさと有用性を高める。広範囲な人的・自動的な評価の結果,帰納的命令処理において LLM に共通する脆弱性が発見された。異なる帰納的スタイルがモデルに同じエラーを識別する能力に影響を及ぼし、基礎となる仮定の複雑さがモデルの性能にも影響を及ぼす。
論文参考訳（メタデータ） (2023-05-23T06:38:20Z)
Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。 LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文参考訳（メタデータ） (2023-02-22T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。