Fugu-MT 論文翻訳(概要): Contextual Encoder-Decoder Network for Visual Saliency Prediction

論文の概要: Contextual Encoder-Decoder Network for Visual Saliency Prediction

arxiv url: http://arxiv.org/abs/1902.06634v4
Date: Fri, 5 Apr 2024 13:03:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 21:09:03.235615
Title: Contextual Encoder-Decoder Network for Visual Saliency Prediction
Title（参考訳）: 視覚的残差予測のためのコンテキストエンコーダ・デコーダネットワーク
Authors: Alexander Kroner, Mario Senden, Kurt Driessens, Rainer Goebel,
Abstract要約: 本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
参考スコア（独自算出の注目度）: 42.047816176307066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Predicting salient regions in natural images requires the detection of objects that are present in a scene. To develop robust representations for this challenging task, high-level visual features at multiple spatial scales must be extracted and augmented with contextual information. However, existing models aimed at explaining human fixation maps do not incorporate such a mechanism explicitly. Here we propose an approach based on a convolutional neural network pre-trained on a large-scale image classification task. The architecture forms an encoder-decoder structure and includes a module with multiple convolutional layers at different dilation rates to capture multi-scale features in parallel. Moreover, we combine the resulting representations with global scene information for accurately predicting visual saliency. Our model achieves competitive and consistent results across multiple evaluation metrics on two public saliency benchmarks and we demonstrate the effectiveness of the suggested approach on five datasets and selected examples. Compared to state of the art approaches, the network is based on a lightweight image classification backbone and hence presents a suitable choice for applications with limited computational resources, such as (virtual) robotic systems, to estimate human fixations across complex natural scenes.
Abstract（参考訳）: 自然画像中の健全な領域を予測するには、シーンに存在する物体を検出する必要がある。この課題に対するロバストな表現を開発するには、複数の空間スケールで高レベルな視覚的特徴を抽出し、文脈情報で拡張する必要がある。しかし、人間の固定地図の説明を目的とした既存のモデルは、そのようなメカニズムを明示的に含まない。本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。アーキテクチャはエンコーダ・デコーダ構造を形成し、複数の畳み込み層を持つモジュールを含む。さらに,得られた表現をグローバルなシーン情報と組み合わせて,視覚的満足度を正確に予測する。提案手法の有効性を,提案手法の有効性を5つのデータセットと選択した例で示す。最先端のアプローチと比較して、このネットワークは軽量な画像分類バックボーンに基づいており、複雑な自然のシーンにまたがる人間の定着を推定するために、(仮想)ロボットシステムのような限られた計算資源を持つアプリケーションに適した選択肢を提供する。

関連論文リスト

Observing Health Outcomes Using Remote Sensing Imagery and Geo-Context Guided Visual Transformer [8.825339734603862]
本稿では,地理空間情報からの誘導によりリモートセンシング画像処理を向上する新しいモデルを提案する。本手法では,多様な地理空間データを画像パッチと空間的に整合した埋め込みパッチに変換する地理空間埋め込み機構を導入する。提案手法は,既存の地理空間基盤モデルより病気の流行予測に優れることを示す。
論文参考訳（メタデータ） (2026-01-26T22:45:28Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文参考訳（メタデータ） (2025-06-10T13:16:26Z)
Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文参考訳（メタデータ） (2024-12-09T18:33:09Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
SENetV2: Aggregated dense layer for channelwise and global representations [0.0]
我々は,Squeeze残余モジュール内に,多分岐密度層である新しい多層パーセプトロンを導入する。この融合により、チャネルワイドパターンを捕捉し、グローバルな知識を持つネットワークの能力が向上する。ベンチマークデータセットの広範な実験を行い、モデルを検証し、確立したアーキテクチャと比較する。
論文参考訳（メタデータ） (2023-11-17T14:10:57Z)
Semantic Labeling of High Resolution Images Using EfficientUNets and Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-20T12:03:54Z)
Multi-layer Feature Aggregation for Deep Scene Parsing Models [19.198074549944568]
本稿では,深層解析ネットワークにおける多層特徴出力の空間-意味的整合性に対する有効利用について検討する。提案モジュールは、空間情報と意味情報を相関付けるために、中間視覚特徴を自動選択することができる。 4つの公開シーン解析データセットの実験により、提案した機能集約モジュールを備えたディープパーシングネットワークは、非常に有望な結果が得られることが証明された。
論文参考訳（メタデータ） (2020-11-04T23:07:07Z)
Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文参考訳（メタデータ） (2020-08-26T20:02:40Z)
Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文参考訳（メタデータ） (2020-07-21T04:03:22Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)
Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文参考訳（メタデータ） (2020-05-25T21:48:45Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。