論文の概要: In-context Vectors: Making In Context Learning More Effective and
Controllable Through Latent Space Steering
- arxiv url: http://arxiv.org/abs/2311.06668v1
- Date: Sat, 11 Nov 2023 21:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:32:17.350540
- Title: In-context Vectors: Making In Context Learning More Effective and
Controllable Through Latent Space Steering
- Title(参考訳): In-context Vectors:潜時空間ステアリングによる文脈学習の効率化と制御性
- Authors: Sheng Liu, Lei Xing, James Zou
- Abstract要約: 大規模言語モデル(LLM)は、コンテキスト内学習能力の出現を示す。
In-context vectors (ICV) としてコンテキスト内学習をリキャストする代替手法を提案する。
ICVは、標準のコンテキスト内学習よりも優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 37.00531067952002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate emergent in-context learning
capabilities, where they adapt to new tasks based on example demonstrations.
However, in-context learning has seen limited effectiveness in many settings,
is difficult to quantitatively control and takes up context window space. To
overcome these limitations, we propose an alternative approach that recasts
in-context learning as in-context vectors (ICV). Using ICV has two steps. We
first use a forward pass on demonstration examples to create the in-context
vector from the latent embedding of the LLM. This vector captures essential
information about the intended task. On a new query, instead of adding
demonstrations to the prompt, we shift the latent states of the LLM using the
ICV. The ICV approach has several benefits: 1) it enables the LLM to more
effectively follow the demonstration examples; 2) it's easy to control by
adjusting the magnitude of the ICV; 3) it reduces the length of the prompt by
removing the in-context demonstrations; 4) ICV is computationally much more
efficient than fine-tuning. We demonstrate that ICV achieves better performance
compared to standard in-context learning and fine-tuning on diverse tasks
including safety, style transfer, role-playing and formatting. Moreover, we
show that we can flexibly teach LLM to simultaneously follow different types of
instructions by simple vector arithmetics on the corresponding ICVs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、実例に基づく新しいタスクに適応する、創発的なコンテキスト内学習能力を示す。
しかし、コンテキスト内学習は多くの設定において限定的な効果を示しており、定量的に制御することは困難であり、コンテキストウィンドウスペースを取る。
これらの制限を克服するために,文脈内学習を文脈内ベクトル(icv)として再キャストする手法を提案する。
ICVの使用には2つのステップがある。
まず、実演例のフォワードパスを使用して、LCMの潜伏埋め込みからコンテキスト内ベクトルを生成する。
このベクトルは、意図したタスクに関する重要な情報をキャプチャする。
新しいクエリでは、プロンプトにデモを追加する代わりに、ICVを使ってLCMの潜伏状態を変更する。
icvアプローチにはいくつかの利点があります
1) LLM は,より効果的に実演例に従うことができる。
2)ICVの大きさを調整することで制御が容易である。
3) インコンテキストのデモを取り除き,プロンプトの長さを短縮する。
4) ICVは微調整よりも計算効率が高い。
安全,スタイル転送,ロールプレイング,フォーマッティングなど多種多様なタスクに対して,標準のコンテキスト内学習や微調整よりも優れた性能を実現することを実証した。
さらに,対応するISV上の単純ベクトル演算により,LLMに異なる命令を同時に追従するように柔軟に教えることができることを示す。
関連論文リスト
- Towards Multimodal In-Context Learning for Vision & Language Models [17.94596325418465]
本研究では、ICL命令に従うための最先端のVLMの機能を解析する。
大規模な混合モダリティ事前訓練を受けたモデルでさえも、少数ショット(ICL)のデモンストレーションを行う際に、インターリーブ画像とテキスト情報のアンダーパフォーマンスを利用するように暗黙的にガイドされていることが判明した。
我々は、ICLのサポート、方法論、カリキュラムで共通のVLMアライメントフレームワークを拡張するための、シンプルで、驚くほど効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-19T13:53:37Z) - Rectifying Demonstration Shortcut in In-Context Learning [15.08431909212102]
大規模言語モデル(LLM)は、ICL(In-context Learning)能力を利用したいくつかのデモで、様々なタスクを解くことができる。
LLMは、ICL予測を進めるために、インプット-ラベル関係よりも、事前に訓練されたデモのセマンティック先行に頼っていることが多い。
論文 参考訳(メタデータ) (2024-03-14T15:30:14Z) - DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Let's Learn Step by Step: Enhancing In-Context Learning Ability with
Curriculum Learning [10.053004550486214]
デモオーダリングは,大規模言語モデル(LLM)の性能に大きく影響する。
我々は,ICLの簡易かつ効果的な実演順序付け手法であるICCLを提唱する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Contrastive Visual-Linguistic Pretraining [48.88553854384866]
コントラスト的視覚言語事前学習は、コントラスト的学習に基づいて構築された視覚的自己監督的損失を構成する。
VQA, GQA, NLVR2などの下流タスクで評価した。
論文 参考訳(メタデータ) (2020-07-26T14:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。