論文の概要: LittleBird: Efficient Faster & Longer Transformer for Question Answering
- arxiv url: http://arxiv.org/abs/2210.11870v1
- Date: Fri, 21 Oct 2022 10:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:33:16.850090
- Title: LittleBird: Efficient Faster & Longer Transformer for Question Answering
- Title(参考訳): LittleBird: 質問応答のための高速でより長い変換器
- Authors: Minchul Lee (1), Kijong Han (1), Myeong Cheol Shin (1) ((1) Kakao
Enterprise Corp.)
- Abstract要約: 精度を保ちながら速度とメモリフットプリントを改善した,BigBirdに基づく新しいモデルであるLittleBirdを提案する。
特に、線形バイアスによる注意に基づくより柔軟で効率的な位置表現法(ALiBi)を考案する。
提案モデルでは, 短時間入力で事前学習した場合でも, 長い入力に有効であり, 既存の事前学習言語モデルを短時間入力で効率的に再利用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT has shown a lot of sucess in a wide variety of NLP tasks. But it has a
limitation dealing with long inputs due to its attention mechanism. Longformer,
ETC and BigBird addressed this issue and effectively solved the quadratic
dependency problem. However we find that these models are not sufficient, and
propose LittleBird, a novel model based on BigBird with improved speed and
memory footprint while maintaining accuracy. In particular, we devise a more
flexible and efficient position representation method based on Attention with
Linear Biases (ALiBi). We also show that replacing the method of global
information represented in the BigBird with pack and unpack attention is more
effective. The proposed model can work on long inputs even after being
pre-trained on short inputs, and can be trained efficiently reusing existing
pre-trained language model for short inputs. This is a significant benefit for
low-resource languages where large amounts of long text data are difficult to
obtain. As a result, our experiments show that LittleBird works very well in a
variety of languages, achieving high performance in question answering tasks,
particularly in KorQuAD2.0, Korean Question Answering Dataset for long
paragraphs.
- Abstract(参考訳): BERTは様々なNLPタスクで多くのサスメントを示してきた。
しかし、注意機構のために長い入力を扱う制限がある。
Longformer、ETC、BigBirdはこの問題に対処し、2次依存性問題を効果的に解決した。
しかし,これらのモデルでは不十分であることが判明し,精度を保ちながら速度とメモリフットプリントを改善した,BigBirdをベースとした新しいモデルであるLittleBirdを提案する。
特に,Attention with Linear Biases (ALiBi) に基づく,より柔軟で効率的な位置表現法を提案する。
また,bigbird に代表されるグローバル情報を pack や unpack attention に置き換えることがより効果的であることを示す。
提案モデルでは,短い入力を事前学習した後でも長い入力を処理でき,既存の事前学習された言語モデルを短時間入力に効率的に再利用できる。
これは、大量の長いテキストデータを得るのが難しい低リソース言語にとって大きな利点である。
その結果、LittleBirdは様々な言語で非常にうまく機能し、特にKorQuAD2.0, Korean Question Answering Datasetにおいて、質問応答タスクの高性能化を実現していることがわかった。
関連論文リスト
- Native Language Identification with Big Bird Embeddings [0.3069335774032178]
ネイティブ言語識別(NLI)は、著者の母国語を他の言語での表記に基づいて分類することを目的としている。
現在の研究は、入力サイズが制限要因であるかどうかを調べ、Big Birdの埋め込みを使って訓練された分類器が、Reddit-L2データセットで大きなマージンで言語機能エンジニアリングモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-13T12:47:40Z) - Focused Transformer: Contrastive Training for Context Scaling [31.44508996359732]
コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。
FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。
提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
論文 参考訳(メタデータ) (2023-07-06T17:52:10Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Utilizing Bidirectional Encoder Representations from Transformers for
Answer Selection [16.048329028104643]
我々は、大規模なデータセットにおける言語モデリングタスクにトランスフォーマーベースのモデルを採用し、下流タスクに微調整する。
回答選択タスクに対するBERTモデルの微調整は非常に効果的であり、QAデータセットでは13.1%、CQAデータセットでは18.7%の最大改善が観察されている。
論文 参考訳(メタデータ) (2020-11-14T03:15:26Z) - Big Bird: Transformers for Longer Sequences [40.12772565610501]
BigBird は列関数の普遍近似であり、チューリング完備であることを示す。
提案されたスパースアテンションは、これまで可能であった8倍の長さのシーケンスを処理できる。
BigBirdは、質問応答や要約など、さまざまなNLPタスクのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-28T08:34:04Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。