論文の概要: Focused Transformer: Contrastive Training for Context Scaling
- arxiv url: http://arxiv.org/abs/2307.03170v2
- Date: Thu, 30 Nov 2023 17:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:23:56.538115
- Title: Focused Transformer: Contrastive Training for Context Scaling
- Title(参考訳): Focused Transformer: コンテキストスケーリングのためのコントラストトレーニング
- Authors: Szymon Tworkowski, Konrad Staniszewski, Miko{\l}aj Pacek, Yuhuai Wu,
Henryk Michalewski, Piotr Mi{\l}o\'s
- Abstract要約: コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。
FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。
提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
- 参考スコア(独自算出の注目度): 31.44508996359732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have an exceptional capability to incorporate new
information in a contextual manner. However, the full potential of such an
approach is often restrained due to a limitation in the effective context
length. One solution to this issue is to endow an attention layer with access
to an external memory, which comprises of (key, value) pairs. Yet, as the
number of documents increases, the proportion of relevant keys to irrelevant
ones decreases, leading the model to focus more on the irrelevant keys. We
identify a significant challenge, dubbed the distraction issue, where keys
linked to different semantic values might overlap, making them hard to
distinguish. To tackle this problem, we introduce the Focused Transformer
(FoT), a technique that employs a training process inspired by contrastive
learning. This novel approach enhances the structure of the (key, value) space,
enabling an extension of the context length. Our method allows for fine-tuning
pre-existing, large-scale models to lengthen their effective context. This is
demonstrated by our fine-tuning of $3B$ and $7B$ OpenLLaMA checkpoints. The
resulting models, which we name LongLLaMA, exhibit advancements in tasks
requiring a long context. We further illustrate that our LongLLaMA models
adeptly manage a $256 k$ context length for passkey retrieval.
- Abstract(参考訳): 大規模言語モデルは、文脈的に新しい情報を組み込む特別な能力を持っている。
しかし、そのようなアプローチの完全なポテンシャルは、有効文脈長の制限のためにしばしば抑制される。
この問題の解決策の1つは、(キー、値)ペアからなる外部メモリへのアクセスを持つ注意層を提供することである。
しかし、文書の数が増えるにつれて、関連するキーの無関係なキーに対する割合が減少し、無関係なキーにもっと集中するようになる。
そこでは、異なるセマンティックな値に関連付けられたキーが重複し、区別が困難になる可能性がある。
そこで,本研究では,コントラスト学習に触発された学習プロセスを用いる手法であるフォーカストランスフォーマ(fot)を提案する。
この新しいアプローチは(キー、値)空間の構造を強化し、コンテキスト長の拡張を可能にする。
提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
これは3b$と7b$ openllamaチェックポイントの微調整で示されています。
結果として得られたモデルはLongLLaMAと呼ばれ、長いコンテキストを必要とするタスクの進歩を示す。
さらに,我々のLongLLaMAモデルではパスキー検索のコンテキスト長が256k$であることを示す。
関連論文リスト
- TextMonkey: An OCR-Free Large Multimodal Model for Understanding
Document [63.022717042350834]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
このアプローチは、複数の次元にわたる拡張を導入します。
提案手法は,各種ベンチマークデータセットのパフォーマンス向上に寄与する。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - Training-Free Long-Context Scaling of Large Language Models [120.27629784425274]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - LongHeads: Multi-Head Attention is Secretly a Long Context Processor [51.28378481070993]
LongHeadsは、大規模な言語モデルの長いコンテキスト能力を強化する、トレーニング不要のフレームワークである。
それぞれの頭が全文に参加できるようにする代わりに、各頭がコンテキストチャンクを選択して参加することで、分配長を処理できるようにします。
LongHeadsは線形時間で効率的に動作し、相対的な位置エンコーディングを使用する多くのLCMとシームレスに適合する。
論文 参考訳(メタデータ) (2024-02-16T13:39:34Z) - Fovea Transformer: Efficient Long-Context Modeling with Structured
Fine-to-Coarse Attention [17.48544285026157]
長文集中型変換器であるFovea Transformerを紹介する。
問合せトークンへの距離が増加するにつれて、木に徐々に粗い粒度を持つコンテキストトークンの表現を使用する。
3つの長文要約タスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2023-11-13T06:24:27Z) - Jaeger: A Concatenation-Based Multi-Transformer VQA Model [0.13654846342364307]
文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間に難しい課題を生じさせる。
本稿では,結合型マルチトランスVQAモデルであるJaegarを提案する。
我々のアプローチは、結合によってこれらのモデルの性能を増幅する可能性がある。
論文 参考訳(メタデータ) (2023-10-11T00:14:40Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Multimodal Personality Recognition using Cross-Attention Transformer and
Behaviour Encoding [0.0]
利用可能なすべてのデータを利用するタスクのフレキシブルなモデルを提案する。
この課題は複雑な関係を伴い、特にビデオ処理に大規模なモデルを用いることを避けるため、動作符号化の利用を提案する。
論文 参考訳(メタデータ) (2021-12-22T19:14:55Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical
Encoder for Long-Form Document Matching [28.190001111358438]
長文文書マッチングのためのシームズ多層変換器を用いたSMITHを提案する。
我々のモデルには、より長いテキスト入力に自己注意モデルを適用するためのいくつかの革新が含まれている。
われわれはウィキペディアベースのベンチマークデータセット、コード、トレーニング済みのチェックポイントをオープンソース化し、長文文書マッチングの今後の研究を加速する。
論文 参考訳(メタデータ) (2020-04-26T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。