論文の概要: MAGNET: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities
- arxiv url: http://arxiv.org/abs/2501.08648v1
- Date: Wed, 15 Jan 2025 08:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:27.030917
- Title: MAGNET: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities
- Title(参考訳): MAGNET: 表現学習と入力機能を備えた生成デコーダの拡張
- Authors: Savya Khosla, Kushal Kafle, Simon Jenni, Handong Zhao, John Collomosse, Jing Shi,
- Abstract要約: デコーダのみの大規模言語モデル(LLM)は、双方向モデリングに適応しつつある。
MozartはデコーダのみのLLMの適応で、ロバストな表現を生成し、行方不明のテキストスパンを埋め込む能力を高める。
モーツァルトは3つの自己指導的な訓練目標を採用し、双方向と因果的注意を組み合わせた注意機構を導入している。
- 参考スコア(独自算出の注目度): 38.774415619993015
- License:
- Abstract: While originally designed for unidirectional generative modeling, decoder-only large language models (LLMs) are increasingly being adapted for bidirectional modeling. However, unidirectional and bidirectional models are typically trained separately with distinct objectives (generation and representation learning, respectively). This separation overlooks the opportunity for developing a more versatile language model and for these objectives to complement each other. In this work, we introduce MAGNET, an adaptation of decoder-only LLMs that enhances their ability to generate robust representations and infill missing text spans, while preserving their knowledge and text generation capabilities. MAGNET employs three self-supervised training objectives and introduces an attention mechanism that combines bidirectional and causal attention, enabling unified training across all objectives. Our results demonstrate that LLMs adapted with MAGNET (1) surpass strong text encoders on token-level and sentence-level representation learning tasks, (2) generate contextually appropriate text infills by leveraging future context, (3) retain the ability for open-ended text generation without exhibiting repetition problem, and (4) preserve the knowledge gained by the LLM during pretraining.
- Abstract(参考訳): 元々は一方向生成モデリングのために設計されたが、デコーダのみの大規模言語モデル(LLM)は双方向モデリングに適応してきている。
しかし、一方向モデルと双方向モデルは通常、異なる目的(それぞれ世代と表現学習)で個別に訓練される。
この分離は、より汎用的な言語モデルを開発する機会と、これらの目的が相互に補完する機会を見落としている。
本研究では,デコーダのみの LLM を適応した MAGNET を導入し,その知識とテキスト生成能力を保ちながら,ロバストな表現を生成し,不足するテキストスパンを埋め込む能力を向上させる。
MAGNETは3つの自己指導型トレーニング目標を採用し、双方向と因果的注意を組み合わせた注意機構を導入し、すべての目標に対して統一的なトレーニングを可能にする。
その結果, MAGNET に適応した LLM は,(1) トークンレベルおよび文レベル表現学習タスクにおいて強大なテキストエンコーダを超越し, (2) 将来の文脈を利用して文脈的に適切なテキストインフィルを生成し, (3) 繰り返し問題のないオープンエンドテキスト生成能力を維持し, (4) 事前学習中に LLM が取得した知識を維持できることを示した。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning [20.660297311025417]
E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2024-09-10T17:44:35Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。