論文の概要: Updater-Extractor Architecture for Inductive World State Representations
- arxiv url: http://arxiv.org/abs/2104.05500v1
- Date: Mon, 12 Apr 2021 14:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:41:58.521044
- Title: Updater-Extractor Architecture for Inductive World State Representations
- Title(参考訳): 帰納的世界状態表現のためのupdater-extractorアーキテクチャ
- Authors: Arseny Moskvichev, James A. Liu
- Abstract要約: トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing NLP models traditionally involves two stages - training and
application. Retention of information acquired after training (at application
time) is architecturally limited by the size of the model's context window (in
the case of transformers), or by the practical difficulties associated with
long sequences (in the case of RNNs). In this paper, we propose a novel
transformer-based Updater-Extractor architecture and a training procedure that
can work with sequences of arbitrary length and refine its knowledge about the
world based on linguistic inputs. We explicitly train the model to incorporate
incoming information into its world state representation, obtaining strong
inductive generalization and the ability to handle extremely long-range
dependencies. We prove a lemma that provides a theoretical basis for our
approach. The result also provides insight into success and failure modes of
models trained with variants of Truncated Back-Propagation Through Time (such
as Transformer XL). Empirically, we investigate the model performance on three
different tasks, demonstrating its promise. This preprint is still a work in
progress. At present, we focused on easily interpretable tasks, leaving the
application of the proposed ideas to practical NLP applications for the future.
- Abstract(参考訳): 伝統的にNLPモデルの開発には、トレーニングと応用の2つの段階がある。
トレーニング後(アプリケーション時間)に取得した情報の保持は、(トランスフォーマーの場合)モデルのコンテキストウィンドウのサイズ、または(RNNの場合)長いシーケンスに関連する実践的な困難によってアーキテクチャ的に制限される。
本稿では,任意の長さのシーケンスを処理し,言語入力に基づいて世界に関する知識を洗練させる,トランスフォーマーベースの新しいアーキテクチャである Updater-Extractor を提案する。
我々は、入ってくる情報をその世界状態表現に組み込むようモデルを明示的に訓練し、強い帰納的一般化と極端に長距離依存を扱う能力を得る。
我々は我々のアプローチに理論的基礎を与える補題を証明する。
この結果はまた、Truncated Back-Propagation Through Time(Transformer XLなど)の変種でトレーニングされたモデルの成功と失敗モードに関する洞察を提供する。
実証的に、3つの異なるタスクにおけるモデルパフォーマンスを調査し、その可能性を実証する。
このプレプリントはまだ進行中です。
現在、我々は容易に解釈できるタスクに焦点を合わせており、提案したアイデアを将来的なNLPアプリケーションに適用する。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Foundation Models for Natural Language Processing -- Pre-trained
Language Models Integrating Media [0.0]
ファンデーションモデルは自然言語処理のための事前訓練された言語モデルである。
画像処理やビデオ処理からロボット制御学習まで、幅広いメディアや問題領域に適用することができる。
本書は、ファンデーションモデルの研究および応用における技術の現状を概観する。
論文 参考訳(メタデータ) (2023-02-16T20:42:04Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Can Wikipedia Help Offline Reinforcement Learning? [12.12541097531412]
大規模なオフザシェルフデータセットが不足しているため、微調整強化学習モデルは難しい。
最近の研究では、Transformerアーキテクチャの導入により、オフラインのRLに対処し、その結果を改善している。
オフラインRLタスクを微調整した場合、他の領域(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性について検討する。
論文 参考訳(メタデータ) (2022-01-28T13:55:35Z) - Transformers: "The End of History" for NLP? [17.36054090232896]
我々は、事前訓練されたBERTスタイルのモデルのいくつかの重要な理論的制限に光を当てた。
これらの制限に対処することで,vanilla roberta と xlnet に対する大幅な改善が期待できる。
トランスフォーマーアーキテクチャへの将来の追加について、Desiderataに関するより一般的な議論を提供します。
論文 参考訳(メタデータ) (2021-04-09T08:29:42Z) - The NLP Cookbook: Modern Recipes for Transformer based Deep Learning
Architectures [0.0]
自然言語処理モデルは言語的および意味的なタスクにおいて驚くべき成功を収めた。
最近のNLPアーキテクチャは、中程度のモデルサイズを達成するために、トランスファーラーニング、プルーニング、量子化、知識蒸留の概念を活用している。
知識レトリバーは、より大きなデータベースのコーパスから、より効率と正確さで明示的なデータドキュメントを抽出するために構築されている。
論文 参考訳(メタデータ) (2021-03-23T22:38:20Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-11-26T00:23:00Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - On the comparability of Pre-trained Language Models [0.0]
教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
論文 参考訳(メタデータ) (2020-01-03T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。