論文の概要: I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths
- arxiv url: http://arxiv.org/abs/2006.10220v2
- Date: Fri, 19 Jun 2020 20:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 10:09:20.125178
- Title: I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths
- Title(参考訳): I-BERT: 任意文脈長への変換器の帰納的一般化
- Authors: Hyoungwook Nam, Seung Byum Seo, Vikram Sharma Mailthody, Noor Michael,
Lan Li
- Abstract要約: 自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
- 参考スコア(独自算出の注目度): 2.604653544948958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention has emerged as a vital component of state-of-the-art
sequence-to-sequence models for natural language processing in recent years,
brought to the forefront by pre-trained bi-directional Transformer models. Its
effectiveness is partly due to its non-sequential architecture, which promotes
scalability and parallelism but limits the model to inputs of a bounded length.
In particular, such architectures perform poorly on algorithmic tasks, where
the model must learn a procedure which generalizes to input lengths unseen in
training, a capability we refer to as inductive generalization. Identifying the
computational limits of existing self-attention mechanisms, we propose I-BERT,
a bi-directional Transformer that replaces positional encodings with a
recurrent layer. The model inductively generalizes on a variety of algorithmic
tasks where state-of-the-art Transformer models fail to do so. We also test our
method on masked language modeling tasks where training and validation sets are
partitioned to verify inductive generalization. Out of three algorithmic and
two natural language inductive generalization tasks, I-BERT achieves
state-of-the-art results on four tasks.
- Abstract(参考訳): 近年、自然言語処理における最先端のシーケンシャル・ツー・シーケンスモデルにおいて、事前訓練された双方向トランスフォーマーモデルによって、自己着脱が重要な構成要素となっている。
その効果は、スケーラビリティと並列性を促進するが、モデルを境界長の入力に制限する非シーケンスアーキテクチャによる部分がある。
特に、そのようなアーキテクチャはアルゴリズムのタスクでは性能が悪く、そこではモデルが訓練中に見つからない入力長に一般化する手順を学習しなければならない。
既存の自己アテンション機構の計算限界を同定し、位置エンコーディングをリカレント層に置き換える双方向変換器I-BERTを提案する。
このモデルは、最先端のTransformerモデルではできない様々なアルゴリズム上のタスクを誘導的に一般化する。
また,学習セットと検証セットを分割して帰納的一般化を検証するマスク型言語モデリングタスクについてもテストを行った。
3つのアルゴリズムと2つの自然言語帰納的一般化タスクのうち、I-BERTは4つのタスクで最先端の結果を達成する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Bidirectional Awareness Induction in Autoregressive Seq2Seq Models [47.82947878753809]
双方向認識誘導(BAI)は、ネットワーク内の要素のサブセットであるPivotsを利用して、自己回帰的制約を破ることなく双方向学習を行う訓練手法である。
特に,イメージキャプションでは2.4CIDEr,ニューラルマシン翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が確認された。
論文 参考訳(メタデータ) (2024-08-25T23:46:35Z) - Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Pretrained Transformers as Universal Computation Engines [105.00539596788127]
自然言語で事前学習したトランスフォーマーを,最小限の微調整で他のモダリティに一般化する能力について検討する。
本研究では, 数値計算, 視覚, タンパク質折り畳み予測にまたがる様々なシーケンス分類タスクについて, 微調整を行った。
このようなプリトレーニングにより、FPTはこれらのモダリティにゼロショットで一般化することができ、これらのタスクで完全に訓練されたトランスのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2021-03-09T06:39:56Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。