Fugu-MT 論文翻訳(概要): LittleBird: Efficient Faster & Longer Transformer for Question Answering

論文の概要: LittleBird: Efficient Faster & Longer Transformer for Question Answering

arxiv url: http://arxiv.org/abs/2210.11870v2
Date: Wed, 12 Apr 2023 15:20:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 18:35:06.003262
Title: LittleBird: Efficient Faster & Longer Transformer for Question Answering
Title（参考訳）: LittleBird: 質問応答のための高速でより長い変換器
Authors: Minchul Lee (1), Kijong Han (1), Myeong Cheol Shin (1) ((1) Kakao Enterprise Corp.)
Abstract要約: 精度を保ちながら速度とメモリフットプリントを改善した,BigBirdに基づく新しいモデルであるLittleBirdを提案する。特に、線形バイアスによる注意に基づくより柔軟で効率的な位置表現法(ALiBi)を考案する。提案モデルでは, 短時間入力で事前学習した場合でも, 長い入力に有効であり, 既存の事前学習言語モデルを短時間入力で効率的に再利用することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: BERT has shown a lot of sucess in a wide variety of NLP tasks. But it has a limitation dealing with long inputs due to its attention mechanism. Longformer, ETC and BigBird addressed this issue and effectively solved the quadratic dependency problem. However we find that these models are not sufficient, and propose LittleBird, a novel model based on BigBird with improved speed and memory footprint while maintaining accuracy. In particular, we devise a more flexible and efficient position representation method based on Attention with Linear Biases (ALiBi). We also show that replacing the method of global information represented in the BigBird with pack and unpack attention is more effective. The proposed model can work on long inputs even after being pre-trained on short inputs, and can be trained efficiently reusing existing pre-trained language model for short inputs. This is a significant benefit for low-resource languages where large amounts of long text data are difficult to obtain. As a result, our experiments show that LittleBird works very well in a variety of languages, achieving high performance in question answering tasks, particularly in KorQuAD2.0, Korean Question Answering Dataset for long paragraphs.
Abstract（参考訳）: BERTは様々なNLPタスクで多くのサスメントを示してきた。しかし、注意機構のために長い入力を扱う制限がある。 Longformer、ETC、BigBirdはこの問題に対処し、2次依存性問題を効果的に解決した。しかし,これらのモデルでは不十分であることが判明し,精度を保ちながら速度とメモリフットプリントを改善した,BigBirdをベースとした新しいモデルであるLittleBirdを提案する。特に,Attention with Linear Biases (ALiBi) に基づく,より柔軟で効率的な位置表現法を提案する。また,bigbird に代表されるグローバル情報を pack や unpack attention に置き換えることがより効果的であることを示す。提案モデルでは,短い入力を事前学習した後でも長い入力を処理でき,既存の事前学習された言語モデルを短時間入力に効率的に再利用できる。これは、大量の長いテキストデータを得るのが難しい低リソース言語にとって大きな利点である。その結果、LittleBirdは様々な言語で非常にうまく機能し、特にKorQuAD2.0, Korean Question Answering Datasetにおいて、質問応答タスクの高性能化を実現していることがわかった。

関連論文リスト

TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文参考訳（メタデータ） (2025-05-27T03:47:33Z)
DRAMA: Diverse Augmentation from Large Language Models to Smaller Dense Retrievers [86.54316283425001]
大規模言語モデル(LLM)は、高密度レトリバーとして微調整されている間、強い有効性と堅牢性を示している。 LLMは効率が良いが、教師付き微調整データで効率的に一般化できないことが多い。我々は、LLMを活用してより小さな一般化可能な高密度レトリバーを訓練するトレーニングフレームワークであるDRAMAを紹介する。
論文参考訳（メタデータ） (2025-02-25T18:59:07Z)
Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-24T09:25:37Z)
CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文参考訳（メタデータ） (2024-07-30T17:57:32Z)
It Is Not About What You Say, It Is About How You Say It: A Surprisingly Simple Approach for Improving Reading Comprehension [0.0]
3つのデータセットにまたがる9つの大きな言語モデルで実験した結果、質問の前にコンテキストを提示することで、モデルのパフォーマンスが向上することがわかった。さらに、最良のメソッドは驚くほど単純で、入力にいくつかのトークンを連結するだけで、結果として最大36%の精度の改善が得られます。
論文参考訳（メタデータ） (2024-06-24T16:43:11Z)
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文参考訳（メタデータ） (2024-04-11T15:27:22Z)
Native Language Identification with Big Bird Embeddings [0.3069335774032178]
ネイティブ言語識別(NLI)は、著者の母国語を他の言語での表記に基づいて分類することを目的としている。現在の研究は、入力サイズが制限要因であるかどうかを調べ、Big Birdの埋め込みを使って訓練された分類器が、Reddit-L2データセットで大きなマージンで言語機能エンジニアリングモデルを上回っていることを示している。
論文参考訳（メタデータ） (2023-09-13T12:47:40Z)
Focused Transformer: Contrastive Training for Context Scaling [31.44508996359732]
コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。 FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
論文参考訳（メタデータ） (2023-07-06T17:52:10Z)
LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文参考訳（メタデータ） (2023-06-26T17:59:24Z)
Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文参考訳（メタデータ） (2023-03-02T09:03:43Z)
Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。 ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文参考訳（メタデータ） (2022-11-21T21:58:30Z)
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文参考訳（メタデータ） (2022-03-16T17:37:27Z)
Big Bird: Transformers for Longer Sequences [40.12772565610501]
BigBird は列関数の普遍近似であり、チューリング完備であることを示す。提案されたスパースアテンションは、これまで可能であった8倍の長さのシーケンスを処理できる。 BigBirdは、質問応答や要約など、さまざまなNLPタスクのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2020-07-28T08:34:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。