Fugu-MT 論文翻訳(概要): DALG: Deep Attentive Local and Global Modeling for Image Retrieval

論文の概要: DALG: Deep Attentive Local and Global Modeling for Image Retrieval

arxiv url: http://arxiv.org/abs/2207.00287v1
Date: Fri, 1 Jul 2022 09:32:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-04 13:26:20.966142
Title: DALG: Deep Attentive Local and Global Modeling for Image Retrieval
Title（参考訳）: DALG:画像検索のための深部注視ローカルおよびグローバルモデリング
Authors: Yuxin Song, Ruolin Zhu, Min Yang and Dongliang He
Abstract要約: 本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。 DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
参考スコア（独自算出の注目度）: 26.773211032906854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deeply learned representations have achieved superior image retrieval performance in a retrieve-then-rerank manner. Recent state-of-the-art single stage model, which heuristically fuses local and global features, achieves promising trade-off between efficiency and effectiveness. However, we notice that efficiency of existing solutions is still restricted because of their multi-scale inference paradigm. In this paper, we follow the single stage art and obtain further complexity-effectiveness balance by successfully getting rid of multi-scale testing. To achieve this goal, we abandon the widely-used convolution network giving its limitation in exploring diverse visual patterns, and resort to fully attention based framework for robust representation learning motivated by the success of Transformer. Besides applying Transformer for global feature extraction, we devise a local branch composed of window-based multi-head attention and spatial attention to fully exploit local image patterns. Furthermore, we propose to combine the hierarchical local and global features via a cross-attention module, instead of using heuristically fusion as previous art does. With our Deep Attentive Local and Global modeling framework (DALG), extensive experimental results show that efficiency can be significantly improved while maintaining competitive results with the state of the arts.
Abstract（参考訳）: 深層学習された表現は、検索・削除方式で優れた画像検索性能を達成している。局所的・グローバル的特徴をヒューリスティックに融合した最近の最先端の単一ステージモデルでは,効率性と有効性の間に有望なトレードオフが達成されている。しかし,マルチスケール推論パラダイムのため,既存のソリューションの効率は依然として制限されている。本稿では,マルチスケールテストの除去に成功して,単一ステージ技術に従い,さらなる複雑性と効率のバランスを得る。この目的を達成するために,多種多様な視覚パターンの探索に制限を与える広範に利用されている畳み込みネットワークを放棄し,Transformerの成功に動機づけられた頑健な表現学習のためのフレームワークを十分に注目する。グローバル特徴抽出にトランスフォーマーを適用するだけでなく、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案し、ローカルイメージパターンを完全に活用する。さらに,従来の技術のようにヒューリスティックな融合を使わずに,階層的な局所的特徴とグローバルな特徴をクロスアテンションモジュールで組み合わせることを提案する。 DALG(Deep Attentive Local and Global Modeling framework)では,最先端技術との競争性を保ちながら,効率を大幅に改善できることを示す。

関連論文リスト

CTSR: Controllable Fidelity-Realness Trade-off Distillation for Real-World Image Super Resolution [52.93785843453579]
実世界の画像超解像は、2つの重要な評価基準が元の画像への忠実さと生成された結果の視覚的現実性である、重要な画像処理タスクである。本稿では,複数の教師モデルの性能上の利点とともに,忠実度と現実性の両方を幾何学的に分解する蒸留方式を提案する。いくつかの実世界の画像超解像ベンチマークで行った実験により,本手法が既存の最先端手法を超越していることが証明された。
論文参考訳（メタデータ） (2025-03-18T14:06:39Z)
Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。 Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。 SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文参考訳（メタデータ） (2025-01-24T06:42:06Z)
Localization, balance and affinity: a stronger multifaceted collaborative salient object detector in remote sensing images [24.06927394483275]
ORSIにおいて,LBA-MCNetと呼ばれる,より強力な多面協調型サリエント物体検出器を提案する。このネットワークは、ターゲットの正確な位置決め、詳細な機能のバランス、画像レベルのグローバルコンテキスト情報のモデリングに重点を置いている。
論文参考訳（メタデータ） (2024-10-31T14:50:48Z)
Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning [36.25611963252774]
拡散モデルによる状態推論(SIDIFF)は、画像の露光にインスパイアされている。 SIDIFFは、ローカルな観測のみに基づいて、元のグローバルステートを再構築する。現在のマルチエージェント強化学習アルゴリズムに無理に組み込むことができる。
論文参考訳（メタデータ） (2024-08-18T14:49:53Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文参考訳（メタデータ） (2023-08-28T08:54:27Z)
Multi-modal Gated Mixture of Local-to-Global Experts for Dynamic Image Fusion [59.19469551774703]
赤外線と可視画像の融合は,複数の情報源からの包括的情報を統合して,様々な作業において優れた性能を実現することを目的としている。局所-言語の専門家によるマルチモーダルゲート混合を用いた動的画像融合フレームワークを提案する。本モデルは,Mixture of Local Experts (MoLE) とMixture of Global Experts (MoGE) から構成される。
論文参考訳（メタデータ） (2023-02-02T20:06:58Z)
Mutual Guidance and Residual Integration for Image Enhancement [43.282397174228116]
本稿では,効果的な双方向グローバルローカル情報交換を行うための相互誘導ネットワーク(MGN)を提案する。本設計では,グローバルな関係のモデリングに重点を置き,一方がローカルな情報処理にコミットする2ブランチのフレームワークを採用する。その結果、グローバルとローカルの両方のブランチは、相互情報集約のメリットを享受できる。
論文参考訳（メタデータ） (2022-11-25T06:12:39Z)
Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文参考訳（メタデータ） (2021-09-22T10:08:15Z)
Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。 vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文参考訳（メタデータ） (2021-04-29T14:14:11Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。