論文の概要: Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability
- arxiv url: http://arxiv.org/abs/2310.08049v3
- Date: Tue, 2 Apr 2024 01:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:52:33.886829
- Title: Is attention required for ICL? Exploring the Relationship Between Model Architecture and In-Context Learning Ability
- Title(参考訳): ICLには注意が必要であるか? モデルアーキテクチャと文脈内学習能力の関係を探る
- Authors: Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick,
- Abstract要約: そこで本研究では,テキスト内学習タスクのスイート間で因果言語モデリングが可能な13のモデルを評価する。
検討されたアーキテクチャはすべて、以前文書化されたよりも幅広い条件下でコンテキスト内学習を行うことができる。
いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者と競合することがある。
- 参考スコア(独自算出の注目度): 39.42414275888214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the relationship between model architecture and the ability to perform in-context learning? In this empirical study, we take the first steps toward answering this question. We evaluate thirteen model architectures capable of causal language modeling across a suite of synthetic in-context learning tasks. These selected architectures represent a broad range of paradigms, including recurrent and convolution-based neural networks, transformers, state space model inspired, and other emerging attention alternatives. We discover that all the considered architectures can perform in-context learning under a wider range of conditions than previously documented. Additionally, we observe stark differences in statistical efficiency and consistency by varying the number of in-context examples and task difficulty. We also measure each architecture's predisposition towards in-context learning when presented with the option to memorize rather than leverage in-context examples. Finally, and somewhat surprisingly, we find that several attention alternatives are sometimes competitive with or better in-context learners than transformers. However, no single architecture demonstrates consistency across all tasks, with performance either plateauing or declining when confronted with a significantly larger number of in-context examples than those encountered during gradient-based training.
- Abstract(参考訳): モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか?
この経験的研究では、この疑問に答える第一歩を踏み出す。
そこで本研究では,テキスト内学習タスクのスイート間で因果的言語モデリングが可能な13のモデルアーキテクチャを評価した。
これらの選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、状態空間モデルにインスパイアされた、その他の注目の代替品など、幅広いパラダイムを表現している。
検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習が可能であることが判明した。
さらに,テキスト内サンプル数やタスク難易度を変化させることで,統計的効率と一貫性の相違を観察する。
また、各アーキテクチャのコンテキスト内学習に対する前処理を、コンテキスト内サンプルを活用するのではなく記憶するオプションとして提示する。
最後に、驚くべきことに、いくつかの注意すべき代替手段が、トランスフォーマーよりもコンテキスト内学習者と競合することがある。
しかしながら、すべてのタスク間で一貫性を示す単一のアーキテクチャはなく、勾配ベースのトレーニングで発生するものよりもはるかに多くのコンテキスト内例に直面したとき、パフォーマンスが低下する。
関連論文リスト
- ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文 参考訳(メタデータ) (2022-10-11T20:05:09Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。