論文の概要: Universal In-Context Approximation By Prompting Fully Recurrent Models
- arxiv url: http://arxiv.org/abs/2406.01424v2
- Date: Thu, 10 Oct 2024 16:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:55.279375
- Title: Universal In-Context Approximation By Prompting Fully Recurrent Models
- Title(参考訳): フルリカレントモデルによる普遍的インコンテキスト近似
- Authors: Aleksandar Petrov, Tom A. Lamb, Alasdair Paren, Philip H. S. Torr, Adel Bibi,
- Abstract要約: RNN,LSTM,GRU,Linear RNN,Linear RNN,Line gated Architecturesは,汎用のインコンテキスト近似器として機能することを示す。
完全反復アーキテクチャにコンパイルするLSRLというプログラミング言語を導入する。
- 参考スコア(独自算出の注目度): 86.61942787684272
- License:
- Abstract: Zero-shot and in-context learning enable solving tasks without model fine-tuning, making them essential for developing generative model solutions. Therefore, it is crucial to understand whether a pretrained model can be prompted to approximate any function, i.e., whether it is a universal in-context approximator. While it was recently shown that transformer models do possess this property, these results rely on their attention mechanism. Hence, these findings do not apply to fully recurrent architectures like RNNs, LSTMs, and the increasingly popular SSMs. We demonstrate that RNNs, LSTMs, GRUs, Linear RNNs, and linear gated architectures such as Mamba and Hawk/Griffin can also serve as universal in-context approximators. To streamline our argument, we introduce a programming language called LSRL that compiles to these fully recurrent architectures. LSRL may be of independent interest for further studies of fully recurrent models, such as constructing interpretability benchmarks. We also study the role of multiplicative gating and observe that architectures incorporating such gating (e.g., LSTMs, GRUs, Hawk/Griffin) can implement certain operations more stably, making them more viable candidates for practical in-context universal approximation.
- Abstract(参考訳): ゼロショットおよびインコンテキスト学習は、モデル微調整なしでタスクを解決し、生成モデルソリューションの開発に不可欠である。
したがって、事前訓練されたモデルが任意の関数、すなわち、普遍的なインコンテキスト近似器であるかどうかを近似させることができるかどうかを理解することが重要である。
近年、トランスモデルにこの特性があることが示されているが、これらの結果は彼らの注意機構に依存している。
したがって、これらの発見は、RNN、LSTM、そしてますます人気のあるSSMのような、完全に反復するアーキテクチャには適用されない。
我々は、RNN、LSTM、GRU、線形RNN、およびMambaやHawk/Griffinのような線形ゲートアーキテクチャが、普遍的なインコンテキスト近似としても機能できることを実証した。
議論を合理化するために、我々はLSRLと呼ばれるプログラミング言語を導入し、これら完全に再帰的なアーキテクチャにコンパイルする。
LSRLは、解釈可能性ベンチマークの構築など、完全再帰モデルのさらなる研究には、独立した関心があるかもしれない。
このようなゲーティング(LSTM、GRU、Hawk/Griffin)を組み込んだアーキテクチャは、より安定して特定の操作を実装できるので、より実用的なコンテキスト内普遍近似の候補となる。
関連論文リスト
- Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Learning Interpretable Rules for Scalable Data Representation and
Classification [11.393431987232425]
ルールベースのLearner Representation (RRL)は、データ表現と分類のための解釈可能な非ファジィ規則を学習する。
RRLは容易に調整でき、異なるシナリオの分類精度とモデルの複雑さのトレードオフを得ることができる。
論文 参考訳(メタデータ) (2023-10-22T15:55:58Z) - Universality of Linear Recurrences Followed by Non-linear Projections: Finite-Width Guarantees and Benefits of Complex Eigenvalues [32.783917920167205]
実あるいは複素線型対角線再帰と組み合わせることで、列列列マップの任意に正確な近似が導かれることを示す。
我々は、単位円盤付近で複雑な固有値(すなわち、S4で最も成功した戦略)を利用することが、情報を保存する上で、RNNに大いに役立つことを証明した。
論文 参考訳(メタデータ) (2023-07-21T20:09:06Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Rethinking Log Odds: Linear Probability Modelling and Expert Advice in
Interpretable Machine Learning [8.831954614241234]
線形化付加モデル(LAM)とSubscaleHedgeの2つの拡張を含む、解釈可能な機械学習モデルのファミリーを紹介する。
LAMは、GAM(General Additive Models)におけるユビキタスなロジスティックリンク関数を置き換えるものであり、SubscaleHedgeはサブスケールと呼ばれる機能のサブセットでトレーニングされたベースモデルを組み合わせるためのエキスパートアドバイスアルゴリズムである。
論文 参考訳(メタデータ) (2022-11-11T17:21:57Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Scalable Rule-Based Representation Learning for Interpretable
Classification [12.736847587988853]
ルールベースのLearner Representation (RRL)は、データ表現と分類のための解釈可能な非ファジィ規則を学習する。
RRLは容易に調整でき、異なるシナリオの分類精度とモデルの複雑さのトレードオフを得ることができる。
論文 参考訳(メタデータ) (2021-09-30T13:07:42Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。