論文の概要: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- arxiv url: http://arxiv.org/abs/2310.08049v1
- Date: Thu, 12 Oct 2023 05:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:52:12.275650
- Title: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- Title(参考訳): モデルアーキテクチャと文脈内学習能力の関係を探る
- Authors: Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick
- Abstract要約: テキスト内学習タスクを合成して15のモデルアーキテクチャを評価する。
考慮されたアーキテクチャはすべて、特定の条件下でコンテキスト内学習を行うことができる。
現代のアーキテクチャは、特にタスクの複雑さが増大するにつれて、最高のパフォーマンスであることが分かっています。
- 参考スコア(独自算出の注目度): 44.308785575626146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the relationship between model architecture and the ability to
perform in-context learning? In this empirical study, we take the first steps
towards answering this question. In particular, we evaluate fifteen model
architectures across a suite of synthetic in-context learning tasks. The
selected architectures represent a broad range of paradigms, including
recurrent and convolution-based neural networks, transformers, and emerging
attention alternatives. We discover that all considered architectures can
perform in-context learning under certain conditions. However, contemporary
architectures are found to be the best performing, especially as task
complexity grows. Additionally, our follow-up experiments delve into various
factors that influence in-context learning. We observe varied sensitivities
among architectures with respect to hyperparameter settings. Our study of
training dynamics reveals that certain architectures exhibit a smooth,
progressive learning trajectory, while others demonstrate periods of stagnation
followed by abrupt mastery of the task. Finally, and somewhat surprisingly, we
find that several emerging attention alternatives are more robust in-context
learners than transformers; since such approaches have constant-sized memory
footprints at inference time, this result opens the future possibility of
scaling up in-context learning to vastly larger numbers of in-context examples.
- Abstract(参考訳): モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか?
この経験的研究では、この質問に答える第一歩を踏み出します。
特に,合成インコンテキスト学習タスク群における15のモデルアーキテクチャを評価する。
選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、新興の注意の代替など、幅広いパラダイムを表している。
検討されたアーキテクチャはすべて,特定の条件下でコンテキスト内学習を行うことができる。
しかし、現代のアーキテクチャは、特にタスクの複雑さが増すにつれて、最高のパフォーマンスであることが分かっています。
さらに、我々のフォローアップ実験は、文脈内学習に影響を与える様々な要因を掘り下げる。
ハイパーパラメータ設定に関してアーキテクチャ間の様々な感度を観察する。
トレーニングダイナミクスの研究は、あるアーキテクチャがスムーズでプログレッシブな学習軌道を示し、他のアーキテクチャは停滞の期間を示し、そのタスクの突然の熟達を示す。
このようなアプローチは推論時に一定のサイズのメモリフットプリントを持つため、コンテキスト内学習を膨大な数のインコンテキストサンプルにスケールアップする可能性を開くことになる。
関連論文リスト
- ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文 参考訳(メタデータ) (2022-10-11T20:05:09Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。