Fugu-MT 論文翻訳(概要): Core Context Aware Transformers for Long Context Language Modeling

論文の概要: Core Context Aware Transformers for Long Context Language Modeling

arxiv url: http://arxiv.org/abs/2412.12465v2
Date: Wed, 28 May 2025 13:05:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 15:04:26.956431
Title: Core Context Aware Transformers for Long Context Language Modeling
Title（参考訳）: 長期言語モデリングのためのコアコンテキスト認識変換器
Authors: Yaofo Chen, Zeng You, Shuhai Zhang, Haokun Li, Yirui Li, Yaowei Wang, Mingkui Tan,
Abstract要約: 高速な長文モデリングのためのCCAアテンションを提案する。本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
参考スコア（独自算出の注目度）: 50.774702091154204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based Large Language Models (LLMs) have exhibited remarkable success in extensive tasks primarily attributed to self-attention mechanism, which requires a token to consider all preceding tokens as its context to compute attention. However, when the context length L becomes very large (e.g., 128K), the amount of potentially redundant information in the context tends to increase. The redundant context not only hampers the modeling representation performance but also incurs unnecessary computational and storage overhead. In this paper, we propose a plug-and-play Core Context Aware (CCA) Attention for efficient long-context modeling, comprising two complementary modules: 1) Globality-aware pooling module groups input tokens and dynamically compresses each group into one core token based on their significance. In this way, our method automatically focuses and strengthens core context while diminishing redundancy during the learning process, leading to effective long-term dependency modeling. 2) Locality-preserving module incorporates neighboring tokens to preserve local context for detailed representation. Notably, our CCA-Attention is able to replace the self-attention module in existing LLMs with minimal fine-tuning cost. Extensive experimental results show the superiority of our method in both long-context modeling and computational efficiency over state-of-the-art methods.
Abstract（参考訳）: トランスフォーマーベースの大規模言語モデル(LLM)は、主に自己注意機構に起因する広範囲なタスクにおいて顕著な成功を収めている。しかし、コンテキスト長Lが非常に大きくなる(例えば、128K)と、コンテキスト内の潜在的に冗長な情報が増加する傾向にある。冗長なコンテキストはモデリング表現のパフォーマンスを損なうだけでなく、不要な計算とストレージのオーバーヘッドを引き起こす。本稿では,2つの相補的モジュールからなる,効率的な長文モデリングのためのCCAアテンションを提案する。 1)グローバル性を考慮したプールモジュールは入力トークンをグループ化し,各グループをその意義に基づいて動的に1つのコアトークンに圧縮する。このようにして,本手法は学習過程における冗長性を低減しつつ,コアコンテキストを自動的に集中し,強化する。 2) 局所性保存モジュールは、局所的なコンテキストを詳細な表現のために保持するために、隣接するトークンを組み込む。特に、我々のCCA-Attentionは、既存のLCMの自己保持モジュールを最小限の微調整コストで置き換えることができる。従来手法よりも長期文脈モデリングと計算効率の両面で,本手法の優位性を示した。

関連論文リスト

Efficient Attention Mechanisms for Large Language Models: A Survey [18.86171225316892]
トランスフォーマーベースのアーキテクチャは、大規模言語モデルの一般的な計算バックボーンとなっている。最近の研究は、効率的な注意機構の2つの主要なカテゴリを紹介している。対照的に、スパースアテンションテクニックは、固定パターン、ブロックワイドルーティング、クラスタリング戦略に基づいて、選択されたトークンのサブセットに注意を限定する。
論文参考訳（メタデータ） (2025-07-25T18:08:10Z)
Curse of High Dimensionality Issue in Transformer for Long-context Modeling [31.257769500741006]
注意計算において重要でないトークンを集約することにより冗長性を低減するために,textitDynamic Group Attention (DGA)を提案する。その結果,DGAは競争性能を維持しながら計算コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (2025-05-28T08:34:46Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality [29.531450446701175]
本稿では, トークン削減は, 大規模生成モデルの時代において, 従来の効率重視の役割を超越すべきであると主張する。トークンの削減は、より深いマルチモーダル統合とアライメントを促進し、長い入力に対するコヒーレンスを維持し、トレーニングの安定性を高めることができると我々は主張する。我々は、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性について概説する。
論文参考訳（メタデータ） (2025-05-23T11:30:30Z)
PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models [0.0]
PACTは,無関係なトークンを抽出し,視覚的に冗長なトークンをマージすることで,推論時間とメモリ使用量を削減する手法である。我々の手法は、注意点に頼ることなく重要でないトークンを識別するために、新しい重要性の指標を用いる。また、視覚トークンを効率的にクラスタリングする、距離境界密度ピーククラスタリングという新しいクラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-11T20:45:00Z)
Dynamic Bi-Elman Attention Networks: A Dual-Directional Context-Aware Test-Time Learning for Text Classification [17.33216148544084]
本稿では,DBEAN(Dynamic Bidirectional Elman with Attention Network)を提案する。 DBEANは双方向時間モデリングと自己認識機構を統合している。重みを入力のクリティカルセグメントに動的に割り当て、計算効率を維持しながら文脈表現を改善する。
論文参考訳（メタデータ） (2025-03-19T17:45:13Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。 SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文参考訳（メタデータ） (2024-05-22T04:49:00Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model [14.721615285883429]
異種グラフからの推論知識を外部知識に頼らずにトランスフォーマーアーキテクチャに組み込む新しい注意パターンを導入する。提案する注目パターンは, 単語トークンに対するグローバルな注意, グラフに関連付けられたトークンに対する強い注意を示すエンティティトークンに対するグラフの注意, 各エンティティトークンとワードトークンの関係のタイプを考慮した3つの重要な要素から構成される。我々のモデルは、最先端のLUKE-GraphとベースラインのLUKEモデルの両方を2つの異なるデータセットで比較した。
論文参考訳（メタデータ） (2023-07-19T20:17:37Z)
Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文参考訳（メタデータ） (2023-07-04T02:50:44Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Efficient Representation Learning via Adaptive Context Pooling [15.673260849127695]
自己注意機構は、個々のトークンによって定義された固定された注意の粒度を仮定するが、これはより高いレベルで複雑な依存関係をモデル化するのに最適ではないかもしれない。トークン毎の注意の粒度を適応させることにより,この問題に対処するContextPoolを提案する。 ContextPoolは、注意モデルをより表現豊かにし、しばしば少ないレイヤで強力なパフォーマンスを実現し、その結果、コストを大幅に削減します。
論文参考訳（メタデータ） (2022-07-05T07:10:31Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文参考訳（メタデータ） (2020-04-17T09:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。