論文の概要: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- arxiv url: http://arxiv.org/abs/2310.08049v2
- Date: Sat, 25 Nov 2023 23:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:02:44.248034
- Title: Exploring the Relationship Between Model Architecture and In-Context
Learning Ability
- Title(参考訳): モデルアーキテクチャと文脈内学習能力の関係を探る
- Authors: Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick
- Abstract要約: 合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価した。
検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習が可能であることが判明した。
いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者の方が堅牢である。
- 参考スコア(独自算出の注目度): 44.308785575626146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What is the relationship between model architecture and the ability to
perform in-context learning? In this empirical study, we take the first steps
toward answering this question. We evaluate twelve model architectures capable
of causal language modeling across a suite of synthetic in-context learning
tasks. These selected architectures represent a broad range of paradigms,
including recurrent and convolution-based neural networks, transformers,
state-space model inspired, and other emerging attention alternatives. We
discover that all the considered architectures can perform in-context learning
under a wider range of conditions than previously documented. Additionally, we
observe stark differences in statistical efficiency and consistency by varying
context length and task difficulty. We also measure each architecture's
predisposition towards in-context learning when presented with alternative
routes for task resolution. Finally, and somewhat surprisingly, we find that
several attention alternatives are more robust in-context learners than
transformers. Given that such approaches have constant-sized memory footprints
at inference time, this result opens the possibility of scaling up in-context
learning to accommodate vastly larger numbers of in-context examples.
- Abstract(参考訳): モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか?
この経験的研究では、この質問に答える第一歩を踏み出します。
合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価する。
これらの選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、状態空間モデルにインスパイアされたその他の注目の選択肢を含む、幅広いパラダイムを表している。
検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習を行うことができることがわかった。
さらに,状況やタスクの難易度によって,統計的効率と一貫性の相違が観察される。
また,タスク解決のための代替経路が提示された場合,各アーキテクチャのコンテキスト内学習の前提条件も測定する。
最後に、驚くべきことに、いくつかの注意すべき代替手段が、トランスフォーマーよりもコンテキスト内学習者の方が堅牢であることがわかった。
このようなアプローチが推論時に一定のサイズのメモリフットプリントを持つことを考えると、この結果はコンテキスト内学習をスケールアップし、コンテキスト内サンプルの数が大幅に増加する可能性を開く。
関連論文リスト
- Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
実効的なシーケンスモデルでは連想的リコールを実行できなければならないことを示す。
私たちのキーとなる洞察は、連想メモリを通じて入力トークンを記憶することは、テスト時に回帰を実行することと等価であるということです。
線形アテンションモデル、ゲート変数、状態空間モデル、オンライン学習者、ソフトマックスアテンションなどを含む最近のアーキテクチャは、テスト時間回帰に対する特定のアプローチとして自然に現れています。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。
検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文 参考訳(メタデータ) (2022-10-11T20:05:09Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。