論文の概要: LittleBird: Efficient Faster & Longer Transformer for Question Answering
- arxiv url: http://arxiv.org/abs/2210.11870v2
- Date: Wed, 12 Apr 2023 15:20:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 18:35:06.003262
- Title: LittleBird: Efficient Faster & Longer Transformer for Question Answering
- Title(参考訳): LittleBird: 質問応答のための高速でより長い変換器
- Authors: Minchul Lee (1), Kijong Han (1), Myeong Cheol Shin (1) ((1) Kakao
Enterprise Corp.)
- Abstract要約: 精度を保ちながら速度とメモリフットプリントを改善した,BigBirdに基づく新しいモデルであるLittleBirdを提案する。
特に、線形バイアスによる注意に基づくより柔軟で効率的な位置表現法(ALiBi)を考案する。
提案モデルでは, 短時間入力で事前学習した場合でも, 長い入力に有効であり, 既存の事前学習言語モデルを短時間入力で効率的に再利用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT has shown a lot of sucess in a wide variety of NLP tasks. But it has a
limitation dealing with long inputs due to its attention mechanism. Longformer,
ETC and BigBird addressed this issue and effectively solved the quadratic
dependency problem. However we find that these models are not sufficient, and
propose LittleBird, a novel model based on BigBird with improved speed and
memory footprint while maintaining accuracy. In particular, we devise a more
flexible and efficient position representation method based on Attention with
Linear Biases (ALiBi). We also show that replacing the method of global
information represented in the BigBird with pack and unpack attention is more
effective. The proposed model can work on long inputs even after being
pre-trained on short inputs, and can be trained efficiently reusing existing
pre-trained language model for short inputs. This is a significant benefit for
low-resource languages where large amounts of long text data are difficult to
obtain. As a result, our experiments show that LittleBird works very well in a
variety of languages, achieving high performance in question answering tasks,
particularly in KorQuAD2.0, Korean Question Answering Dataset for long
paragraphs.
- Abstract(参考訳): BERTは様々なNLPタスクで多くのサスメントを示してきた。
しかし、注意機構のために長い入力を扱う制限がある。
Longformer、ETC、BigBirdはこの問題に対処し、2次依存性問題を効果的に解決した。
しかし,これらのモデルでは不十分であることが判明し,精度を保ちながら速度とメモリフットプリントを改善した,BigBirdをベースとした新しいモデルであるLittleBirdを提案する。
特に,Attention with Linear Biases (ALiBi) に基づく,より柔軟で効率的な位置表現法を提案する。
また,bigbird に代表されるグローバル情報を pack や unpack attention に置き換えることがより効果的であることを示す。
提案モデルでは,短い入力を事前学習した後でも長い入力を処理でき,既存の事前学習された言語モデルを短時間入力に効率的に再利用できる。
これは、大量の長いテキストデータを得るのが難しい低リソース言語にとって大きな利点である。
その結果、LittleBirdは様々な言語で非常にうまく機能し、特にKorQuAD2.0, Korean Question Answering Datasetにおいて、質問応答タスクの高性能化を実現していることがわかった。
関連論文リスト
- RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
本稿では,Googleの新しいGriffinアーキテクチャを用いたオープン言語モデルであるRecurrentGemmaを紹介する。
Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
論文 参考訳(メタデータ) (2024-04-11T15:27:22Z) - Training With "Paraphrasing the Original Text'' Improves Long-Context Performance [0.0]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本稿では,これらの問題の根幹を検索能力の欠如として認識し,長いコンテキストにおけるキー情報の空間性によって悪化する。
本稿では,LLMの長文情報抽出能力を高めることを目的とした,"Paraphrasing the Original Text'"という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Native Language Identification with Big Bird Embeddings [0.3069335774032178]
ネイティブ言語識別(NLI)は、著者の母国語を他の言語での表記に基づいて分類することを目的としている。
現在の研究は、入力サイズが制限要因であるかどうかを調べ、Big Birdの埋め込みを使って訓練された分類器が、Reddit-L2データセットで大きなマージンで言語機能エンジニアリングモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2023-09-13T12:47:40Z) - Focused Transformer: Contrastive Training for Context Scaling [31.44508996359732]
コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。
FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。
提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
論文 参考訳(メタデータ) (2023-07-06T17:52:10Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Utilizing Bidirectional Encoder Representations from Transformers for
Answer Selection [16.048329028104643]
我々は、大規模なデータセットにおける言語モデリングタスクにトランスフォーマーベースのモデルを採用し、下流タスクに微調整する。
回答選択タスクに対するBERTモデルの微調整は非常に効果的であり、QAデータセットでは13.1%、CQAデータセットでは18.7%の最大改善が観察されている。
論文 参考訳(メタデータ) (2020-11-14T03:15:26Z) - Big Bird: Transformers for Longer Sequences [40.12772565610501]
BigBird は列関数の普遍近似であり、チューリング完備であることを示す。
提案されたスパースアテンションは、これまで可能であった8倍の長さのシーケンスを処理できる。
BigBirdは、質問応答や要約など、さまざまなNLPタスクのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-28T08:34:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。