論文の概要: DALG: Deep Attentive Local and Global Modeling for Image Retrieval
- arxiv url: http://arxiv.org/abs/2207.00287v1
- Date: Fri, 1 Jul 2022 09:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:26:20.966142
- Title: DALG: Deep Attentive Local and Global Modeling for Image Retrieval
- Title(参考訳): DALG:画像検索のための深部注視ローカルおよびグローバルモデリング
- Authors: Yuxin Song, Ruolin Zhu, Min Yang and Dongliang He
- Abstract要約: 本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。
グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。
DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
- 参考スコア(独自算出の注目度): 26.773211032906854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deeply learned representations have achieved superior image retrieval
performance in a retrieve-then-rerank manner. Recent state-of-the-art single
stage model, which heuristically fuses local and global features, achieves
promising trade-off between efficiency and effectiveness. However, we notice
that efficiency of existing solutions is still restricted because of their
multi-scale inference paradigm. In this paper, we follow the single stage art
and obtain further complexity-effectiveness balance by successfully getting rid
of multi-scale testing. To achieve this goal, we abandon the widely-used
convolution network giving its limitation in exploring diverse visual patterns,
and resort to fully attention based framework for robust representation
learning motivated by the success of Transformer. Besides applying Transformer
for global feature extraction, we devise a local branch composed of
window-based multi-head attention and spatial attention to fully exploit local
image patterns. Furthermore, we propose to combine the hierarchical local and
global features via a cross-attention module, instead of using heuristically
fusion as previous art does. With our Deep Attentive Local and Global modeling
framework (DALG), extensive experimental results show that efficiency can be
significantly improved while maintaining competitive results with the state of
the arts.
- Abstract(参考訳): 深層学習された表現は、検索・削除方式で優れた画像検索性能を達成している。
局所的・グローバル的特徴をヒューリスティックに融合した最近の最先端の単一ステージモデルでは,効率性と有効性の間に有望なトレードオフが達成されている。
しかし,マルチスケール推論パラダイムのため,既存のソリューションの効率は依然として制限されている。
本稿では,マルチスケールテストの除去に成功して,単一ステージ技術に従い,さらなる複雑性と効率のバランスを得る。
この目的を達成するために,多種多様な視覚パターンの探索に制限を与える広範に利用されている畳み込みネットワークを放棄し,Transformerの成功に動機づけられた頑健な表現学習のためのフレームワークを十分に注目する。
グローバル特徴抽出にトランスフォーマーを適用するだけでなく、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案し、ローカルイメージパターンを完全に活用する。
さらに,従来の技術のようにヒューリスティックな融合を使わずに,階層的な局所的特徴とグローバルな特徴をクロスアテンションモジュールで組み合わせることを提案する。
DALG(Deep Attentive Local and Global Modeling framework)では,最先端技術との競争性を保ちながら,効率を大幅に改善できることを示す。
関連論文リスト
- Recognize Any Regions [59.08881073582635]
RegionSpotは、ローカライゼーション基盤モデルから位置認識のローカライゼーション知識と、ViLモデルから抽出されたセマンティック情報を統合するように設計されている。
我々のモデルは平均的精度(mAP)でGLIPを6.5%上回り、より困難で稀なカテゴリーではさらに14.8%の差がある。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Multi-Scale and Multi-Layer Contrastive Learning for Domain
Generalization [6.053629733936548]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Efficient and Explicit Modelling of Image Hierarchies for Image
Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。
そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。
そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:59:29Z) - Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image
Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。
局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。
本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文 参考訳(メタデータ) (2023-02-02T20:06:58Z) - Mutual Guidance and Residual Integration for Image Enhancement [43.282397174228116]
本稿では,効果的な双方向グローバルローカル情報交換を行うための相互誘導ネットワーク(MGN)を提案する。
本設計では,グローバルな関係のモデリングに重点を置き,一方がローカルな情報処理にコミットする2ブランチのフレームワークを採用する。
その結果、グローバルとローカルの両方のブランチは、相互情報集約のメリットを享受できる。
論文 参考訳(メタデータ) (2022-11-25T06:12:39Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Multi-Level Branched Regularization for Federated Learning [46.771459325434535]
本稿では,各局所モデルにおける複数の補助的分岐を,複数の異なるレベルで局所的および大域的ワークをグラフトすることで構築する,新しいアーキテクチャ正規化手法を提案する。
従来の手法に比べて精度と効率の点で顕著な性能向上を示す。
論文 参考訳(メタデータ) (2022-07-14T13:59:26Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。