論文の概要: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- arxiv url: http://arxiv.org/abs/2310.08049v1
- Date: Thu, 12 Oct 2023 05:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:52:12.275650
- Title: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- Title(参考訳): モデルアーキテクチャと文脈内学習能力の関係を探る
- Authors: Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick
- Abstract要約: テキスト内学習タスクを合成して15のモデルアーキテクチャを評価する。
考慮されたアーキテクチャはすべて、特定の条件下でコンテキスト内学習を行うことができる。
現代のアーキテクチャは、特にタスクの複雑さが増大するにつれて、最高のパフォーマンスであることが分かっています。
- 参考スコア(独自算出の注目度): 44.308785575626146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the relationship between model architecture and the ability to
perform in-context learning? In this empirical study, we take the first steps
towards answering this question. In particular, we evaluate fifteen model
architectures across a suite of synthetic in-context learning tasks. The
selected architectures represent a broad range of paradigms, including
recurrent and convolution-based neural networks, transformers, and emerging
attention alternatives. We discover that all considered architectures can
perform in-context learning under certain conditions. However, contemporary
architectures are found to be the best performing, especially as task
complexity grows. Additionally, our follow-up experiments delve into various
factors that influence in-context learning. We observe varied sensitivities
among architectures with respect to hyperparameter settings. Our study of
training dynamics reveals that certain architectures exhibit a smooth,
progressive learning trajectory, while others demonstrate periods of stagnation
followed by abrupt mastery of the task. Finally, and somewhat surprisingly, we
find that several emerging attention alternatives are more robust in-context
learners than transformers; since such approaches have constant-sized memory
footprints at inference time, this result opens the future possibility of
scaling up in-context learning to vastly larger numbers of in-context examples.
- Abstract(参考訳): モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか?
この経験的研究では、この質問に答える第一歩を踏み出します。
特に,合成インコンテキスト学習タスク群における15のモデルアーキテクチャを評価する。
選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、新興の注意の代替など、幅広いパラダイムを表している。
検討されたアーキテクチャはすべて,特定の条件下でコンテキスト内学習を行うことができる。
しかし、現代のアーキテクチャは、特にタスクの複雑さが増すにつれて、最高のパフォーマンスであることが分かっています。
さらに、我々のフォローアップ実験は、文脈内学習に影響を与える様々な要因を掘り下げる。
ハイパーパラメータ設定に関してアーキテクチャ間の様々な感度を観察する。
トレーニングダイナミクスの研究は、あるアーキテクチャがスムーズでプログレッシブな学習軌道を示し、他のアーキテクチャは停滞の期間を示し、そのタスクの突然の熟達を示す。
このようなアプローチは推論時に一定のサイズのメモリフットプリントを持つため、コンテキスト内学習を膨大な数のインコンテキストサンプルにスケールアップする可能性を開くことになる。
関連論文リスト
- Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Breaking the Curse of Dimensionality in Deep Neural Networks by Learning
Invariant Representations [1.9580473532948401]
この論文は、これらのモデルのアーキテクチャとそれらが処理するデータ内の固有の構造との関係を研究することによって、ディープラーニングの理論的基礎を探求する。
ディープラーニングアルゴリズムの有効性を駆動するものは何か,いわゆる次元の呪いに勝てるのか,と問う。
本手法は,実験的な研究と物理に触発された玩具モデルを組み合わせることによって,深層学習に実証的なアプローチをとる。
論文 参考訳(メタデータ) (2023-10-24T19:50:41Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Similarity of Neural Architectures using Adversarial Attack
Transferability [50.50231315195932]
ニューラルネットワーク間の定量的かつスケーラブルな類似度尺度を設計する。
我々は69の最先端画像ネット分類器を大規模に解析する。
我々の結果は、異なるコンポーネントを持つ多様なニューラルアーキテクチャの開発がなぜ必要かについての洞察を提供する。
論文 参考訳(メタデータ) (2022-10-20T16:56:47Z) - Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文 参考訳(メタデータ) (2022-10-11T20:05:09Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。