論文の概要: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- arxiv url: http://arxiv.org/abs/2310.08049v2
- Date: Sat, 25 Nov 2023 23:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:02:44.248034
- Title: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- Title(参考訳): モデルアーキテクチャと文脈内学習能力の関係を探る
- Authors: Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick
- Abstract要約: 合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価した。
検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習が可能であることが判明した。
いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者の方が堅牢である。
- 参考スコア(独自算出の注目度): 44.308785575626146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the relationship between model architecture and the ability to
perform in-context learning? In this empirical study, we take the first steps
toward answering this question. We evaluate twelve model architectures capable
of causal language modeling across a suite of synthetic in-context learning
tasks. These selected architectures represent a broad range of paradigms,
including recurrent and convolution-based neural networks, transformers,
state-space model inspired, and other emerging attention alternatives. We
discover that all the considered architectures can perform in-context learning
under a wider range of conditions than previously documented. Additionally, we
observe stark differences in statistical efficiency and consistency by varying
context length and task difficulty. We also measure each architecture's
predisposition towards in-context learning when presented with alternative
routes for task resolution. Finally, and somewhat surprisingly, we find that
several attention alternatives are more robust in-context learners than
transformers. Given that such approaches have constant-sized memory footprints
at inference time, this result opens the possibility of scaling up in-context
learning to accommodate vastly larger numbers of in-context examples.
- Abstract(参考訳): モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか?
この経験的研究では、この質問に答える第一歩を踏み出します。
合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価する。
これらの選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、状態空間モデルにインスパイアされたその他の注目の選択肢を含む、幅広いパラダイムを表している。
検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習を行うことができることがわかった。
さらに,状況やタスクの難易度によって,統計的効率と一貫性の相違が観察される。
また,タスク解決のための代替経路が提示された場合,各アーキテクチャのコンテキスト内学習の前提条件も測定する。
最後に、驚くべきことに、いくつかの注意すべき代替手段が、トランスフォーマーよりもコンテキスト内学習者の方が堅牢であることがわかった。
このようなアプローチが推論時に一定のサイズのメモリフットプリントを持つことを考えると、この結果はコンテキスト内学習をスケールアップし、コンテキスト内サンプルの数が大幅に増加する可能性を開く。
関連論文リスト
- Auto-ICL: In-Context Learning without Human Supervision [104.58114779879688]
Vanilla In-Context Learningは人間が提供するコンテキストに依存します。
自動文脈学習(Automatic In-Context Learning)という普遍的なフレームワークを提案する。
提案手法は,既存の手法と比較して,様々なタスクに対して高い性能を示す。
論文 参考訳(メタデータ) (2023-11-15T07:37:28Z) - Breaking the Curse of Dimensionality in Deep Neural Networks by Learning
Invariant Representations [1.9580473532948401]
この論文は、これらのモデルのアーキテクチャとそれらが処理するデータ内の固有の構造との関係を研究することによって、ディープラーニングの理論的基礎を探求する。
ディープラーニングアルゴリズムの有効性を駆動するものは何か,いわゆる次元の呪いに勝てるのか,と問う。
本手法は,実験的な研究と物理に触発された玩具モデルを組み合わせることによって,深層学習に実証的なアプローチをとる。
論文 参考訳(メタデータ) (2023-10-24T19:50:41Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Similarity of Neural Architectures using Adversarial Attack
Transferability [50.50231315195932]
ニューラルネットワーク間の定量的かつスケーラブルな類似度尺度を設計する。
我々は69の最先端画像ネット分類器を大規模に解析する。
我々の結果は、異なるコンポーネントを持つ多様なニューラルアーキテクチャの開発がなぜ必要かについての洞察を提供する。
論文 参考訳(メタデータ) (2022-10-20T16:56:47Z) - Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文 参考訳(メタデータ) (2022-10-11T20:05:09Z) - What Can Transformers Learn In-Context? A Case Study of Simple Function
Classes [67.06980111346245]
インコンテキスト学習(In-context learning)とは、インコンテキストの例からなるプロンプトシーケンスでモデルに条件を付ける能力である。
我々は,標準変換器をスクラッチから訓練して,線形関数の文脈内学習を行うことを示した。
また、タスク固有の学習アルゴリズムに適合または超越したパフォーマンスで、より複雑な関数クラスをコンテキスト内で学習できるようにトランスフォーマーを訓練できることも示している。
論文 参考訳(メタデータ) (2022-08-01T18:01:40Z) - Architecture Matters in Continual Learning [43.36462900350999]
アーキテクチャの選択が継続的な学習性能に大きな影響を及ぼすことを示す。
本研究は,継続的な学習性能を向上させるためのベストプラクティスと勧告を提示する。
論文 参考訳(メタデータ) (2022-02-01T08:32:22Z) - Exploiting Contextual Information with Deep Neural Networks [5.787117733071416]
文脈情報は、暗黙的かつ明示的な2つの根本的に異なる方法で活用できることを示します。
この論文では、文脈情報を2つの根本的に異なる方法で活用できることを示し、暗黙的かつ明示的に示す。
論文 参考訳(メタデータ) (2020-06-21T03:40:30Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。