論文の概要: Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration
- arxiv url: http://arxiv.org/abs/2411.09604v1
- Date: Thu, 14 Nov 2024 17:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:25:07.764489
- Title: Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration
- Title(参考訳): Local-Global Attention: マルチスケール機能統合のための適応メカニズム
- Authors: Yifan Shao,
- Abstract要約: Local-Global Attentionは、ローカルとグローバルの両方のコンテキスト機能を統合するように設計されている。
我々は、広く使われているオブジェクト検出および分類データセットのローカル・グローバル・アテンション機構を徹底的に評価した。
- 参考スコア(独自算出の注目度): 0.9790236766474198
- License:
- Abstract: In recent years, attention mechanisms have significantly enhanced the performance of object detection by focusing on key feature information. However, prevalent methods still encounter difficulties in effectively balancing local and global features. This imbalance hampers their ability to capture both fine-grained details and broader contextual information-two critical elements for achieving accurate object detection.To address these challenges, we propose a novel attention mechanism, termed Local-Global Attention, which is designed to better integrate both local and global contextual features. Specifically, our approach combines multi-scale convolutions with positional encoding, enabling the model to focus on local details while concurrently considering the broader global context. Additionally, we introduce a learnable parameters, which allow the model to dynamically adjust the relative importance of local and global attention, depending on the specific requirements of the task, thereby optimizing feature representations across multiple scales.We have thoroughly evaluated the Local-Global Attention mechanism on several widely used object detection and classification datasets. Our experimental results demonstrate that this approach significantly enhances the detection of objects at various scales, with particularly strong performance on multi-class and small object detection tasks. In comparison to existing attention mechanisms, Local-Global Attention consistently outperforms them across several key metrics, all while maintaining computational efficiency.
- Abstract(参考訳): 近年,注目機構は重要な特徴情報に着目して物体検出性能を著しく向上させている。
しかし、一般的な手法は、局所的特徴とグローバル的特徴を効果的にバランスさせるのに依然として困難に直面する。
これらの課題に対処するため,ローカル・グローバル・アテンション (Local-Global Attention) と呼ばれる,ローカル・グローバル・コンテクストとグローバル・コンテクストの両機能をよりよく統合した新しいアテンション・メカニズムを提案する。
具体的には、マルチスケールの畳み込みと位置符号化を組み合わせることで、より広範なグローバルコンテキストを同時に考慮しながら、局所的な詳細に集中することが可能となる。
さらに,学習可能なパラメータを導入し,タスクの特定の要求に応じて局所的・グローバル的注意の相対的重要性を動的に調整し,複数のスケールにわたる特徴表現を最適化する。
実験結果から,本手法は様々なスケールでの物体検出を著しく向上させ,特にマルチクラスおよび小型物体検出タスクにおいて高い性能を発揮することが示された。
既存の注意機構と比較して、ローカル・グローバル・アテンションは、計算効率を保ちながら、いくつかの重要な指標で一貫してそれらを上回ります。
関連論文リスト
- Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Global Feature Pyramid Network [1.2473780585666772]
視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。
現在の手法では、層間特徴の相互作用を過度に強調し、層内特徴調整の重要な側面を無視する傾向にある。
論文 参考訳(メタデータ) (2023-12-18T14:30:41Z) - GlobalMind: Global Multi-head Interactive Self-attention Network for
Hyperspectral Change Detection [22.22495802857453]
地球の地表の高解像度画像により、ユーザーは微細なスケールで経時変化をモニターすることができる。
現在のアルゴリズムの多くは、まだローカルな特徴を記述することに限られており、グローバルな視点を取り入れていない。
我々は,異なる表面オブジェクトと変種土地被覆変換の暗黙的相関を探索するために,グローバルマルチヘッド Interactive Self-attention Change Detection Network (GlobalMind) を提案する。
論文 参考訳(メタデータ) (2023-04-18T01:43:17Z) - Global Meets Local: Effective Multi-Label Image Classification via
Category-Aware Weak Supervision [37.761378069277676]
本稿では,効果的雑音・確率抑圧を実現するための統一的な枠組みを構築した。
我々はグローバルな特徴とローカルな特徴の相補的な情報を探るため、粒度横断型アテンションモジュールを開発した。
我々のフレームワークは最先端の手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2022-11-23T05:39:17Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。