論文の概要: In-context Learning with Transformer Is Really Equivalent to a
Contrastive Learning Pattern
- arxiv url: http://arxiv.org/abs/2310.13220v1
- Date: Fri, 20 Oct 2023 01:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:55:35.863808
- Title: In-context Learning with Transformer Is Really Equivalent to a
Contrastive Learning Pattern
- Title(参考訳): トランスフォーマーによるコンテキスト内学習は、コントラスト学習パターンと本当に同等です
- Authors: Ruifeng Ren and Yong Liu
- Abstract要約: 本稿では,逆学習パターンの勾配降下過程としてICLの推論過程を解釈する。
我々の知識を最大限に活用するために、我々の研究は、対照的な学習の観点からICLの理解を提供する最初のものである。
- 参考スコア(独自算出の注目度): 11.329953476499712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large language models based on Transformers have demonstrated
amazing in-context learning (ICL) abilities. Given several demonstration
examples, the models can implement new tasks without any parameter updates.
However, it is still an open question to understand the mechanism of ICL. In
this paper, we interpret the inference process of ICL as a gradient descent
process in a contrastive learning pattern. Firstly, leveraging kernel methods,
we establish the relationship between gradient descent and self-attention
mechanism under generally used softmax attention setting instead of linear
attention setting. Then, we analyze the corresponding gradient descent process
of ICL from the perspective of contrastive learning without negative samples
and discuss possible improvements of this contrastive learning pattern, based
on which the self-attention layer can be further modified. Finally, we design
experiments to support our opinions. To the best of our knowledge, our work is
the first to provide the understanding of ICL from the perspective of
contrastive learning and has the potential to facilitate future model design by
referring to related works on contrastive learning.
- Abstract(参考訳): トランスフォーマーをベースとした事前訓練された大規模言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示した。
いくつかのデモ例が与えられると、モデルはパラメータ更新なしに新しいタスクを実装できる。
しかし、iclのメカニズムを理解することはまだ未解決の問題である。
本稿では,iclの推論過程を,対照学習パターンにおける勾配降下過程として解釈する。
まず,カーネル法を活用し,線形注意設定ではなく,一般に使用されるソフトマックス注意設定下での勾配降下とセルフアテンション機構の関係性を確立する。
そして, 負のサンプルを伴わない比較学習の観点からICLの勾配降下過程を解析し, 自己認識層をさらに修正可能な対比学習パターンの改善の可能性について考察する。
最後に、私たちの意見をサポートする実験をデザインします。
私たちの知識を最大限に活用するために、我々の研究は、コントラスト学習の観点からiclの理解を提供する最初の試みであり、コントラスト学習に関する関連作品を参照して、将来のモデル設計を促進する可能性を秘めています。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Improve Transformer Pre-Training with Decoupled Directional Relative
Position Encoding and Representation Differentiations [23.2969212998404]
トランスフォーマーに基づく事前学習言語モデルを再検討し、モデルの表現性を制限する可能性のある2つの問題を特定する。
既存の相対位置符号化モデルは、相対距離と方向という2つの異種情報を混同する。
事前学習型言語モデルを改善するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-09T12:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。