Fugu-MT 論文翻訳(概要): Wider and Higher: Intensive Integration and Global Foreground Perception for Image Matting

論文の概要: Wider and Higher: Intensive Integration and Global Foreground Perception for Image Matting

arxiv url: http://arxiv.org/abs/2210.06919v1
Date: Thu, 13 Oct 2022 11:34:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 16:25:54.370283
Title: Wider and Higher: Intensive Integration and Global Foreground Perception for Image Matting
Title（参考訳）: より広範かつ高次な統合と画像マッチングのためのグローバルフォアグラウンド知覚
Authors: Yu Qiao, Ziqi Wei, Yuhao Liu, Yuxin Wang, Dongsheng Zhou, Qiang Zhang, Xin Yang
Abstract要約: 本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションと高いモチベーションについて考察する。画像マッチングは基本的にピクセル単位での回帰であり、理想的な状況は入力画像から最大不透明度を知覚することである。 Intensive Integration and Global Foreground Perception Network (I2GFP) を提案する。
参考スコア（独自算出の注目度）: 44.51635913732913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper reviews recent deep-learning-based matting research and conceives our wider and higher motivation for image matting. Many approaches achieve alpha mattes with complex encoders to extract robust semantics, then resort to the U-net-like decoder to concatenate or fuse encoder features. However, image matting is essentially a pixel-wise regression, and the ideal situation is to perceive the maximum opacity correspondence from the input image. In this paper, we argue that the high-resolution feature representation, perception and communication are more crucial for matting accuracy. Therefore, we propose an Intensive Integration and Global Foreground Perception network (I2GFP) to integrate wider and higher feature streams. Wider means we combine intensive features in each decoder stage, while higher suggests we retain high-resolution intermediate features and perceive large-scale foreground appearance. Our motivation sacrifices model depth for a significant performance promotion. We perform extensive experiments to prove the proposed I2GFP model, and state-of-the-art results can be achieved on different public datasets.
Abstract（参考訳）: 本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションについて考察する。多くのアプローチは、複雑なエンコーダでアルファ行列を達成し、ロバストなセマンティクスを抽出し、U-netのようなデコーダを使ってエンコーダの特徴を結合または融合する。しかし、画像マッチングは基本的にピクセル単位の回帰であり、理想的な状況は入力画像から最大不透明度対応を知覚することである。本稿では,高分解能特徴表現,知覚,コミュニケーションがマッティング精度においてより重要であることを論じる。そこで我々は,より広範かつ高機能なストリームを統合するために,集中型統合・グローバルフォアグラウンド知覚ネットワーク(I2GFP)を提案する。より広義には、デコーダの各段階での集中的な特徴を組み合わせ、高次には、高解像度の中間特徴を保持し、大規模な前景の外観を認識することが示唆される。私たちのモチベーションは、重要なパフォーマンス向上のためにモデルの深みを犠牲にします。提案するi2gfpモデルを証明するために広範な実験を行い,様々な公開データセットで最新の結果を得ることができた。

関連論文リスト

HRSeg: High-Resolution Visual Perception and Enhancement for Reasoning Segmentation [74.1872891313184]
HRSegは高精細な知覚を持つ効率的なモデルである。高分解能知覚(HRP)と高分解能増強(HRE)の2つの重要な革新を特徴としている。
論文参考訳（メタデータ） (2025-07-17T08:09:31Z)
HIRE: Lightweight High-Resolution Image Feature Enrichment for Multimodal LLMs [5.362066717455192]
我々は,高分解能な特徴生成の自然な拡張として,特徴アップサンプリングの直感性を開発する。本研究では,浅部機能拡張器がトレーニング時間や推論時間を大幅に削減し,計算コストを抑えることにより,競争結果の達成を実証する。
論文参考訳（メタデータ） (2025-06-21T06:13:56Z)
LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models [27.379438040350188]
機能アップサンプリングは、この問題に対処するための有望な方向を提供する。本稿では,高分解能画像を座標と低分解能VFM特徴と統合した座標ベースのクロスアテンション変換器を提案する。提案手法は, 細かな細部を効果的に捉え, 様々な入力や特徴の分解能に柔軟に適用する。
論文参考訳（メタデータ） (2025-04-18T18:46:08Z)
Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文参考訳（メタデータ） (2025-02-06T06:51:23Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文参考訳（メタデータ） (2024-06-11T09:32:40Z)
MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。 MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文参考訳（メタデータ） (2024-04-17T02:47:39Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-03-23T23:45:19Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth [24.897377434844266]
単分子深度推定のための新しい構造とトレーニング戦略を提案する。階層型トランスフォーマーエンコーダをデプロイして,グローバルなコンテキストをキャプチャし,伝達し,軽量で強力なデコーダを設計する。我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。
論文参考訳（メタデータ） (2022-01-19T06:37:21Z)
Contrastive Attention Network with Dense Field Estimation for Face Completion [11.631559190975034]
本稿では,エンコーダの一般化とロバスト性を改善するために,自己教師付きシームズ推論ネットワークを提案する。顔画像の幾何学的変動に対処するため,ネットワークに高密度対応フィールドを組み込む。このマルチスケールアーキテクチャは、デコーダがエンコーダから画像に学習した識別表現を利用するのに有用である。
論文参考訳（メタデータ） (2021-12-20T02:54:38Z)
High-resolution Depth Maps Imaging via Attention-based Hierarchical Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-04-04T03:28:33Z)
HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。 resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文参考訳（メタデータ） (2020-12-14T09:15:15Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。