論文の概要: Segment-Based Attention Masking for GPTs
- arxiv url: http://arxiv.org/abs/2412.18487v1
- Date: Tue, 24 Dec 2024 15:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:55:30.544201
- Title: Segment-Based Attention Masking for GPTs
- Title(参考訳): GPTのためのセグメントベースアテンションマスキング
- Authors: Shahar Katz, Liran Ringel, Yaniv Romano, Lior Wolf,
- Abstract要約: 因果マスキングは、生成プロセスを模倣して、全ての入力トークンにステップバイステップで適用される。
本研究は,プレフィルフェーズにおける既知ブロック構造に基づいて注意を隠蔽する。
LlamaやQwenのようなモデルに統合すると、最先端のパフォーマンスが一貫して達成される。
- 参考スコア(独自算出の注目度): 57.69161357477644
- License:
- Abstract: Modern Language Models (LMs) owe much of their success to masked causal attention, the backbone of Generative Pre-Trained Transformer (GPT) models. Although GPTs can process the entire user prompt at once, the causal masking is applied to all input tokens step-by-step, mimicking the generation process. This imposes an unnecessary constraint during the initial "prefill" phase when the model processes the input prompt and generates the internal representations before producing any output tokens. In this work, attention is masked based on the known block structure at the prefill phase, followed by the conventional token-by-token autoregressive process after that. For example, in a typical chat prompt, the system prompt is treated as one block, and the user prompt as the next one. Each of these is treated as a unit for the purpose of masking, such that the first tokens in each block can access the subsequent tokens in a non-causal manner. Then, the model answer is generated in the conventional causal manner. This Segment-by-Segment scheme entails no additional computational overhead. When integrating it into models such as Llama and Qwen, state-of-the-art performance is consistently achieved.
- Abstract(参考訳): 現代の言語モデル(LM)は、その成功の多くは、ジェネレーティブ・プレトレーテッド・トランスフォーマー(GPT)モデルのバックボーンである仮面の因果的注意に負っている。
GPTはユーザプロンプト全体を一度に処理できるが、因果マスキングはすべての入力トークンにステップバイステップで適用され、生成プロセスが模倣される。
これは、モデルが入力プロンプトを処理し、出力トークンを生成する前に内部表現を生成するときに、最初の"プリフィル"フェーズで不要な制約を課します。
本研究は, プリフィル段階における既知ブロック構造に基づいて注意を隠蔽し, その後, 従来のトークン・バイ・トーケン自己回帰プロセスで注目する。
例えば、典型的なチャットプロンプトでは、システムプロンプトは1ブロックとして扱われ、ユーザプロンプトは次のブロックとして扱われる。
それぞれのトークンはマスキングの目的のためにユニットとして扱われ、ブロック内の最初のトークンは、非因果的な方法で後続のトークンにアクセスすることができる。
そして、モデル回答を従来の因果方法で生成する。
このセグメンツ・バイ・セグメンツ・スキームは、余分な計算オーバーヘッドを伴わない。
LlamaやQwenのようなモデルに統合すると、最先端のパフォーマンスが一貫して達成される。
関連論文リスト
- SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Token Alignment via Character Matching for Subword Completion [34.76794239097628]
本稿では,生成モデルにおけるテキスト補完におけるトークン化アーティファクトの緩和手法について検討する。
この手法はトークンアライメントと呼ばれ、最後の完全なトークンをバックトラックし、モデルの生成がプロンプトと整合することを保証する。
論文 参考訳(メタデータ) (2024-03-13T16:44:39Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - Position-based Prompting for Health Outcome Generation [0.0]
そこで本研究では,各単語の位置情報をマスクに対するプロンプトで捕捉する位置認識機構について検討する。
我々のアプローチは、デフォルトのマスク言語モデル(MLM)表現がマスクトークンの予測に使用されるベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-03-30T16:44:04Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Position Masking for Language Models [0.0]
Masked Language Modeling (MLM) は、BERT などの事前学習モデルで、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。
マスクされた入力トークンIDとともに、いくつかのトークンの位置をマスキングすることで、このアイデアを拡大することを提案する。
論文 参考訳(メタデータ) (2020-06-02T23:40:41Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。