Fugu-MT 論文翻訳(概要): Focused Transformer: Contrastive Training for Context Scaling

論文の概要: Focused Transformer: Contrastive Training for Context Scaling

arxiv url: http://arxiv.org/abs/2307.03170v2
Date: Thu, 30 Nov 2023 17:15:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 20:23:56.538115
Title: Focused Transformer: Contrastive Training for Context Scaling
Title（参考訳）: Focused Transformer: コンテキストスケーリングのためのコントラストトレーニング
Authors: Szymon Tworkowski, Konrad Staniszewski, Miko{\l}aj Pacek, Yuhuai Wu, Henryk Michalewski, Piotr Mi{\l}o\'s
Abstract要約: コントラスト学習にインスパイアされたトレーニングプロセスを利用するFoT(FoT)を導入する。 FoTは(key, value)空間の構造を強化し、コンテキスト長の拡張を可能にする。提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。
参考スコア（独自算出の注目度）: 31.44508996359732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have an exceptional capability to incorporate new information in a contextual manner. However, the full potential of such an approach is often restrained due to a limitation in the effective context length. One solution to this issue is to endow an attention layer with access to an external memory, which comprises of (key, value) pairs. Yet, as the number of documents increases, the proportion of relevant keys to irrelevant ones decreases, leading the model to focus more on the irrelevant keys. We identify a significant challenge, dubbed the distraction issue, where keys linked to different semantic values might overlap, making them hard to distinguish. To tackle this problem, we introduce the Focused Transformer (FoT), a technique that employs a training process inspired by contrastive learning. This novel approach enhances the structure of the (key, value) space, enabling an extension of the context length. Our method allows for fine-tuning pre-existing, large-scale models to lengthen their effective context. This is demonstrated by our fine-tuning of $3B$ and $7B$ OpenLLaMA checkpoints. The resulting models, which we name LongLLaMA, exhibit advancements in tasks requiring a long context. We further illustrate that our LongLLaMA models adeptly manage a $256 k$ context length for passkey retrieval.
Abstract（参考訳）: 大規模言語モデルは、文脈的に新しい情報を組み込む特別な能力を持っている。しかし、そのようなアプローチの完全なポテンシャルは、有効文脈長の制限のためにしばしば抑制される。この問題の解決策の1つは、(キー、値)ペアからなる外部メモリへのアクセスを持つ注意層を提供することである。しかし、文書の数が増えるにつれて、関連するキーの無関係なキーに対する割合が減少し、無関係なキーにもっと集中するようになる。そこでは、異なるセマンティックな値に関連付けられたキーが重複し、区別が困難になる可能性がある。そこで,本研究では,コントラスト学習に触発された学習プロセスを用いる手法であるフォーカストランスフォーマ(fot)を提案する。この新しいアプローチは(キー、値)空間の構造を強化し、コンテキスト長の拡張を可能にする。提案手法では,既存の大規模モデルを微調整して有効コンテキストを延長することができる。これは3b$と7b$ openllamaチェックポイントの微調整で示されています。結果として得られたモデルはLongLLaMAと呼ばれ、長いコンテキストを必要とするタスクの進歩を示す。さらに,我々のLongLLaMAモデルではパスキー検索のコンテキスト長が256k$であることを示す。

関連論文リスト

Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文参考訳（メタデータ） (2025-02-03T17:47:03Z)
Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。 K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文参考訳（メタデータ） (2024-11-14T18:54:19Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
ChuLo: Chunk-Level Key Information Representation for Long Document Processing [11.29459225491404]
ChuLoは長い文書分類のための新しいチャンク表現法である。提案手法は,情報損失を最小限に抑え,トランスフォーマーモデルの有効性を向上させる。
論文参考訳（メタデータ） (2024-10-14T22:06:54Z)
Stuffed Mamba: Oversized States Lead to the Inability to Forget [69.36377985746878]
Mambaベースのモデルは、内蔵の忘れ物機構であっても、以前のトークンを効果的に忘れるのに苦労していることを示す。モデルの学習に必要な最小トレーニング長は状態サイズと線形に一致し,5桁パスキーの精度向上のための最大コンテキスト長は状態サイズと指数関数的に一致した。我々の研究は、将来のRNN設計は、状態サイズ、トレーニング期間、長いコンテキストタスクにおいて堅牢なパフォーマンスを達成するためのメカニズムを忘れることの間の相互作用を考慮しなければならないことを示唆している。
論文参考訳（メタデータ） (2024-10-09T17:54:28Z)
Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling [42.67141329779589]
Grouped Cross Attentionは、トレーニング前のコンテキスト長の1000倍に一般化することができる。実験により,16Mコンテキスト長のパスキー検索において,GAAに基づくモデルがほぼ完全であることが示された。
論文参考訳（メタデータ） (2024-10-02T15:18:34Z)
Writing in the Margins: Better Inference Pattern for Long Context Retrieval [0.9404560827144429]
The Margins (WiM) は、検索指向タスクにおける長い入力シーケンスの処理を最適化するために設計された推論パターンである。提案したパターンが,コンテキスト処理の進捗状況に関する継続的な更新をエンドユーザに提供する対話型検索設計にどのように適合するかを示す。
論文参考訳（メタデータ） (2024-08-27T09:34:38Z)
FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。 FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文参考訳（メタデータ） (2024-08-21T16:11:59Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-02-27T12:39:23Z)
Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。 LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文参考訳（メタデータ） (2023-12-18T13:40:16Z)
Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文参考訳（メタデータ） (2022-07-22T17:52:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。