Fugu-MT 論文翻訳(概要): LKCA: Large Kernel Convolutional Attention

論文の概要: LKCA: Large Kernel Convolutional Attention

arxiv url: http://arxiv.org/abs/2401.05738v1
Date: Thu, 11 Jan 2024 08:40:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 19:38:59.840573
Title: LKCA: Large Kernel Convolutional Attention
Title（参考訳）: LKCA: 大きなカーネルの進化的注意
Authors: Chenghao Li, Boheng Zeng, Yi Lu, Pengbo Shi, Qingzi Chen, Jirui Liu, Lingyun Zhu
Abstract要約: 我々はLKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。 LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせている。コンボリューションとアテンションの両方の観点から実装されたLKCAが同等の性能を示すことが実験によって確認された。
参考スコア（独自算出の注目度）: 3.896121436301882
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We revisit the relationship between attention mechanisms and large kernel ConvNets in visual transformers and propose a new spatial attention named Large Kernel Convolutional Attention (LKCA). It simplifies the attention operation by replacing it with a single large kernel convolution. LKCA combines the advantages of convolutional neural networks and visual transformers, possessing a large receptive field, locality, and parameter sharing. We explained the superiority of LKCA from both convolution and attention perspectives, providing equivalent code implementations for each view. Experiments confirm that LKCA implemented from both the convolutional and attention perspectives exhibit equivalent performance. We extensively experimented with the LKCA variant of ViT in both classification and segmentation tasks. The experiments demonstrated that LKCA exhibits competitive performance in visual tasks. Our code will be made publicly available at https://github.com/CatworldLee/LKCA.
Abstract（参考訳）: 視覚変換器における注意機構と大カーネルConvNetの関係を再検討し,LKCA(Large Kernel Convolutional Attention)という空間的注意を提案する。単一の大きなカーネル畳み込みに置き換えることで、注意操作を単純化する。 LKCAは畳み込みニューラルネットワークとビジュアルトランスフォーマーの利点を組み合わせて、大きな受容野、局所性、パラメータ共有を持つ。我々は、畳み込みと注意の両方の観点からlkcaの優位性を説明し、各ビューに同等のコード実装を提供した。コンボリューションとアテンションの両方の観点から実装されたLKCAは同等の性能を示した。分類タスクとセグメンテーションタスクの両方において, LKCA の ViT 変異体を広範囲に実験した。実験により,LKCAは視覚タスクにおいて競争性能を示すことが示された。私たちのコードはhttps://github.com/CatworldLee/LKCAで公開されます。

関連論文リスト

Efficient Attention Mechanisms for Large Language Models: A Survey [18.86171225316892]
トランスフォーマーベースのアーキテクチャは、大規模言語モデルの一般的な計算バックボーンとなっている。最近の研究は、効率的な注意機構の2つの主要なカテゴリを紹介している。対照的に、スパースアテンションテクニックは、固定パターン、ブロックワイドルーティング、クラスタリング戦略に基づいて、選択されたトークンのサブセットに注意を限定する。
論文参考訳（メタデータ） (2025-07-25T18:08:10Z)
Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality [29.531450446701175]
本稿では, トークン削減は, 大規模生成モデルの時代において, 従来の効率重視の役割を超越すべきであると主張する。トークンの削減は、より深いマルチモーダル統合とアライメントを促進し、長い入力に対するコヒーレンスを維持し、トレーニングの安定性を高めることができると我々は主張する。我々は、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性について概説する。
論文参考訳（メタデータ） (2025-05-23T11:30:30Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
LSNet: See Large, Focus Small [67.05569159984691]
我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。 LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
論文参考訳（メタデータ） (2025-03-29T16:00:54Z)
C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文参考訳（メタデータ） (2025-03-17T21:52:18Z)
Context Matters: Query-aware Dynamic Long Sequence Modeling of Gigapixel Images [4.3565203412433195]
ワイルスライド画像 (WSI) 解析は, ギガピクセル画像のパッチ数が膨大であるため, 計算上の課題が顕著である。本稿では,クエリ対応の長期コンテキスト動的モデリングフレームワークであるQuerentを提案する。提案手法は, 微粒なパッチ相関をモデル化するためのグローバルな認識を保ちながら, 計算オーバーヘッドを劇的に低減する。
論文参考訳（メタデータ） (2025-01-31T09:29:21Z)
Context-CrackNet: A Context-Aware Framework for Precise Segmentation of Tiny Cracks in Pavement images [3.9599054392856483]
本研究では、RFEM(Rerea-Focused Enhancement Module)とCAGM(Context-Aware Global Module)を備えた新しいエンコーダデコーダアーキテクチャであるContext-CrackNetを提案する。このモデルは9つの最先端セグメンテーションフレームワークを一貫して上回り、mIoUやDiceスコアといった優れたパフォーマンス指標を達成した。このモデルの精度と計算効率のバランスは、大規模舗装監視システムにおけるリアルタイム展開の可能性を強調している。
論文参考訳（メタデータ） (2025-01-24T11:28:17Z)
Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。 CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-17T01:54:08Z)
Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。 PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文参考訳（メタデータ） (2024-11-22T05:41:00Z)
Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文参考訳（メタデータ） (2024-11-11T02:47:05Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。 CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-08-07T11:33:46Z)
On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。 Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文参考訳（メタデータ） (2024-07-08T04:08:35Z)
Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
Rethinking Local Perception in Lightweight Vision Transformer [63.65115590184169]
本稿では,コンテキスト認識型局所拡張を利用した軽量な視覚変換器であるCloFormerを紹介する。 CloFormer氏は、バニラ畳み込み演算子でよく使用されるグローバル共有ウェイトと、注目されているトークン固有のコンテキスト認識ウェイトとの関係について検討している。提案したAttnConvでは、共有ウェイトを使用してローカル情報を集約し、ローカル機能を強化するために慎重に設計されたコンテキスト対応ウェイトをデプロイする。
論文参考訳（メタデータ） (2023-03-31T05:25:32Z)
A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。 FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文参考訳（メタデータ） (2022-12-23T19:13:43Z)
Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition [158.15602882426379]
本稿では,視覚認識のための最先端の手法を設計しようとはしないが,空間的特徴を符号化するために畳み込みを利用するより効率的な方法について検討する。近年の畳み込みニューラルネットワーク(ConvNet)と視覚変換器(Vision Transformers)の設計原理を比較することにより,畳み込み変調操作を活用することで自己意識をシンプルにすることを提案する。
論文参考訳（メタデータ） (2022-11-22T01:39:45Z)
ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文参考訳（メタデータ） (2022-11-14T07:22:55Z)
HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文参考訳（メタデータ） (2022-07-28T17:59:02Z)
KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文参考訳（メタデータ） (2021-05-28T06:49:10Z)
Adaptive Attention Span in Computer Vision [5.371337604556311]
言語モデリングのためのトランスフォーマーの最近の進歩は、コンピュータビジョンにおける新しい研究領域を開拓した。 2019年後半に行われた研究では、コンボリューションをローカルな自己認識カーネルに置き換えた場合、オブジェクトの検出と認識の両方のパフォーマンスが大幅に向上した。ローカルな自己アテンションカーネルを用いたモデルは、畳み込みのみを使用する等価アーキテクチャと比較してパラメータやFLOPSが少ないことも示されている。
論文参考訳（メタデータ） (2020-04-18T21:32:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。