論文の概要: Out-of-distribution generalization via composition: a lens through induction heads in Transformers
- arxiv url: http://arxiv.org/abs/2408.09503v1
- Date: Sun, 18 Aug 2024 14:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:20:04.363519
- Title: Out-of-distribution generalization via composition: a lens through induction heads in Transformers
- Title(参考訳): 合成によるアウト・オブ・ディストリビューション一般化:変圧器の誘導ヘッドによるレンズ
- Authors: Jiajun Song, Zhuoyan Xu, Yiqiao Zhong,
- Abstract要約: GPT-4のような大きな言語モデル(LLM)は、しばしば創造的であり、しばしばプロンプトにいくつかのデモがある新しいタスクを解く。
これらのタスクは、トレーニングデータとは異なる分布を一般化するモデルを必要とする -- アウト・オブ・ディストリビューション(OOD)一般化(out-of-distribution)と呼ばれる。
隠れルールに従ってインスタンスが生成される設定におけるOOD一般化について検討する。
- 参考スコア(独自算出の注目度): 0.46085106405479537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as GPT-4 sometimes appear to be creative, solving novel tasks often with a few demonstrations in the prompt. These tasks require the models to generalize on distributions different from those from training data -- which is known as out-of-distribution (OOD) generalization. Despite the tremendous success of LLMs, how they approach OOD generalization remains an open and underexplored question. We examine OOD generalization in settings where instances are generated according to hidden rules, including in-context learning with symbolic reasoning. Models are required to infer the hidden rules behind input prompts without any fine-tuning. We empirically examined the training dynamics of Transformers on a synthetic example and conducted extensive experiments on a variety of pretrained LLMs, focusing on a type of components known as induction heads. We found that OOD generalization and composition are tied together -- models can learn rules by composing two self-attention layers, thereby achieving OOD generalization. Furthermore, a shared latent subspace in the embedding (or feature) space acts as a bridge for composition by aligning early layers and later layers, which we refer to as the common bridge representation hypothesis.
- Abstract(参考訳): GPT-4のような大きな言語モデル(LLM)は、しばしば創造的であり、しばしばプロンプトにいくつかのデモがある新しいタスクを解く。
これらのタスクは、トレーニングデータとは異なる分布を一般化するモデルを必要とする -- アウト・オブ・ディストリビューション(OOD)一般化(out-of-distribution)と呼ばれる。
LLMの素晴らしい成功にもかかわらず、どのようにしてOOD一般化に近づいたかは、未解明の未解決の問題のままである。
隠れルールに従ってインスタンスが生成される設定におけるOOD一般化について検討する。
入力プロンプトの背後にある隠されたルールを微調整なしで推測するためにモデルは必要である。
本研究では, トランスフォーマーのトレーニング力学を実験的に検討し, 誘導ヘッドと呼ばれる部品に着目し, 種々の事前学習LDMについて広範な実験を行った。
我々は、OODの一般化と構成が結びついていることを発見した。モデルが2つの自己注意層を構成することでルールを学習し、OODの一般化を達成する。
さらに、埋め込み空間(または特徴空間)における共有潜在部分空間は、初期層と後層を整列させて構成するためのブリッジとして機能し、これは共通ブリッジ表現仮説と呼ばれる。
関連論文リスト
- Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts [14.76420070558434]
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則の交わりによって定義される形式言語に焦点を当てる。
我々はアルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
論文 参考訳(メタデータ) (2024-09-09T22:36:35Z) - Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Towards out-of-distribution generalization in large-scale astronomical
surveys: robust networks learn similar representations [3.653721769378018]
ニューラルネットワーク表現の類似度尺度である Centered Kernel Alignment (CKA) を用いて、表現類似度と性能の関係について検討する。
モデルが分散シフトに対して堅牢である場合、OODデータ上に層間でかなり異なる表現を生成することが分かりました。
本稿では,CKAを誘導バイアスとして取り入れることで,モデル設計,トレーニング戦略,OOD問題を緩和する上での類似性表現の可能性について論じる。
論文 参考訳(メタデータ) (2023-11-29T19:00:05Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - It Ain't That Bad: Understanding the Mysterious Performance Drop in OOD Generalization for Generative Transformer Models [6.065846799248359]
大規模言語モデル (LLM) は多様な問題を解決するのに優れた能力を発揮している。
しかし、それらの一般化能力は必ずしも満足しておらず、一般化問題は一般に生成トランスモデルに共通である。
n-digit操作のトレーニングモデルでは,n-digit入力に対してモデルが正常に一般化されるが,もっと長い,見えないケースではフェールすることを示す。
論文 参考訳(メタデータ) (2023-08-16T10:09:42Z) - DIVERSIFY: A General Framework for Time Series Out-of-distribution
Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。
時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。
時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文 参考訳(メタデータ) (2023-08-04T12:27:11Z) - On a Built-in Conflict between Deep Learning and Systematic
Generalization [2.588973722689844]
内部関数共有は、o.o.d.を弱めたり、ディープラーニングの体系的な一般化の理由の1つである。
このような現象は,完全連結,畳み込み,残差ネットワーク,LSTM,(視覚)トランスフォーマなど,標準的なディープラーニングモデルに現れる。
論文 参考訳(メタデータ) (2022-08-24T16:06:36Z) - Generalization in Multimodal Language Learning from Simulation [20.751952728808153]
教師付き時間連続設定で学習した最小限のLSTMネットワークにおいて、基礎となるトレーニングデータ分布が一般化に与える影響について検討する。
構成的一般化は、単純な設定で失敗すると同時に、オブジェクトの数、アクション、特にオブジェクト間の多くの色重なりで改善する。
論文 参考訳(メタデータ) (2021-08-03T12:55:18Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Improving Compositional Generalization in Semantic Parsing [54.4720965813889]
オフ・オブ・ディストリビューション(OOD)データへのモデルの一般化は、最近、大きな注目を集めている。
合成一般化のための自然なテストベッドである意味解析における合成一般化について検討する。
論文 参考訳(メタデータ) (2020-10-12T12:34:58Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。