Fugu-MT 論文翻訳(概要): Exploring the Relationship Between Model Architecture and In-Context Learning Ability

論文の概要: Exploring the Relationship Between Model Architecture and In-Context Learning Ability

arxiv url: http://arxiv.org/abs/2310.08049v2
Date: Sat, 25 Nov 2023 23:35:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 14:02:44.248034
Title: Exploring the Relationship Between Model Architecture and In-Context Learning Ability
Title（参考訳）: モデルアーキテクチャと文脈内学習能力の関係を探る
Authors: Ivan Lee, Nan Jiang, Taylor Berg-Kirkpatrick
Abstract要約: 合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価した。検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習が可能であることが判明した。いくつかの注意すべき代替手段は、トランスフォーマーよりもコンテキスト内学習者の方が堅牢である。
参考スコア（独自算出の注目度）: 44.308785575626146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: What is the relationship between model architecture and the ability to perform in-context learning? In this empirical study, we take the first steps toward answering this question. We evaluate twelve model architectures capable of causal language modeling across a suite of synthetic in-context learning tasks. These selected architectures represent a broad range of paradigms, including recurrent and convolution-based neural networks, transformers, state-space model inspired, and other emerging attention alternatives. We discover that all the considered architectures can perform in-context learning under a wider range of conditions than previously documented. Additionally, we observe stark differences in statistical efficiency and consistency by varying context length and task difficulty. We also measure each architecture's predisposition towards in-context learning when presented with alternative routes for task resolution. Finally, and somewhat surprisingly, we find that several attention alternatives are more robust in-context learners than transformers. Given that such approaches have constant-sized memory footprints at inference time, this result opens the possibility of scaling up in-context learning to accommodate vastly larger numbers of in-context examples.
Abstract（参考訳）: モデルアーキテクチャとコンテキスト内学習の能力の関係はどのようなものか? この経験的研究では、この質問に答える第一歩を踏み出します。合成テキスト内学習タスクのスイート間で因果言語モデリングが可能な12のモデルアーキテクチャを評価する。これらの選択されたアーキテクチャは、リカレントおよび畳み込みベースのニューラルネットワーク、トランスフォーマー、状態空間モデルにインスパイアされたその他の注目の選択肢を含む、幅広いパラダイムを表している。検討されたアーキテクチャはすべて,従来よりも広い範囲の条件下でコンテキスト内学習を行うことができることがわかった。さらに,状況やタスクの難易度によって,統計的効率と一貫性の相違が観察される。また,タスク解決のための代替経路が提示された場合,各アーキテクチャのコンテキスト内学習の前提条件も測定する。最後に、驚くべきことに、いくつかの注意すべき代替手段が、トランスフォーマーよりもコンテキスト内学習者の方が堅牢であることがわかった。このようなアプローチが推論時に一定のサイズのメモリフットプリントを持つことを考えると、この結果はコンテキスト内学習をスケールアップし、コンテキスト内サンプルの数が大幅に増加する可能性を開く。

関連論文リスト

Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation [32.05517352929237]
最先端システム(SOTA)は、トレーニングデータセット、モデリングパラダイム、アーキテクチャ選択など、多くの領域で大きく異なる。本研究はモデリングパラダイムにのみ焦点をあてる。自動回帰デコーディングと条件付きフローマッチングという,最も一般的な2つのモデリングパラダイムを比較した。
論文参考訳（メタデータ） (2025-06-10T08:37:45Z)
Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文参考訳（メタデータ） (2025-05-11T17:44:14Z)
Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文参考訳（メタデータ） (2025-01-15T12:44:52Z)
Interpretable deformable image registration: A geometric deep learning perspective [9.13809412085203]
解釈可能な登録フレームワークを設計するための理論的基盤を提示する。粗い方法で変換を洗練するエンドツーエンドのプロセスを定式化します。我々は、最先端のアプローチよりもパフォーマンスの指標が大幅に改善されたと結論付けている。
論文参考訳（メタデータ） (2024-12-17T19:47:10Z)
ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。 ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文参考訳（メタデータ） (2024-08-12T10:15:13Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。 5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文参考訳（メタデータ） (2023-08-26T08:48:51Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Decoupled Context Processing for Context Augmented Language Modeling [33.89636308731306]
言語モデルはコンテキストレトリバーで拡張することができ、大きな外部データベースからの知識を組み込むことができる。検索したコンテキストを活用することで、ニューラルネットワークは内部パラメータ内の膨大な世界の知識を記憶する必要がなく、効率性、解釈可能性、モジュール性が向上する。
論文参考訳（メタデータ） (2022-10-11T20:05:09Z)
elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。 elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文参考訳（メタデータ） (2022-03-17T16:23:45Z)
How Far are We from Effective Context Modeling? An Exploratory Study on Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文参考訳（メタデータ） (2020-02-03T11:28:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。