論文の概要: Unified Interactive Image Matting
- arxiv url: http://arxiv.org/abs/2205.08324v1
- Date: Tue, 17 May 2022 13:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 14:19:44.521837
- Title: Unified Interactive Image Matting
- Title(参考訳): unified interactive image matting (英語)
- Authors: Stephen.D.H Yang, Bin Wang, Weijia Li, YiQi Lin, Conghui He
- Abstract要約: そこで我々はUIMという名前のUnified Interactive Image Matting法を提案する。
具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避する。
UIMは,コンポジション1Kテストセットと合成統合データセットを用いて,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 10.511539660165159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image matting studies are developing towards proposing trimap-free or
interactive methods for complete complex image matting tasks. Although avoiding
the extensive labors of trimap annotation, existing methods still suffer from
two limitations: (1) For the single image with multiple objects, it is
essential to provide extra interaction information to help determining the
matting target; (2) For transparent objects, the accurate regression of alpha
matte from RGB image is much more difficult compared with the opaque ones. In
this work, we propose a Unified Interactive image Matting method, named UIM,
which solves the limitations and achieves satisfying matting results for any
scenario. Specifically, UIM leverages multiple types of user interaction to
avoid the ambiguity of multiple matting targets, and we compare the pros and
cons of different annotation types in detail. To unify the matting performance
for transparent and opaque objects, we decouple image matting into two stages,
i.e., foreground segmentation and transparency prediction. Moreover, we design
a multi-scale attentive fusion module to alleviate the vagueness in the
boundary region. Experimental results demonstrate that UIM achieves
state-of-the-art performance on the Composition-1K test set and a synthetic
unified dataset. Our code and models will be released soon.
- Abstract(参考訳): 近年,複雑な画像処理タスクを実現するために,trimapフリーあるいはインタラクティブな手法を提案する研究が進められている。
トリマップアノテーションの広範な労力を回避しながらも,既存の手法では,(1)複数のオブジェクトを持つ単一イメージに対して,マッチング対象を決定するための追加のインタラクション情報を提供すること,(2)透明なオブジェクトに対しては,RGB画像からのアルファマットの正確な回帰は,不透明画像に比べてはるかに困難である。
本稿では,この制約を解消し,任意のシナリオを満足するインタラクティブな画像マットリング手法であるuimを提案する。
具体的には、UIMは複数のタイプのユーザインタラクションを活用して、複数のマッチングターゲットの曖昧さを回避し、異なるアノテーションタイプの長所と短所を詳細に比較する。
透明で不透明な物体のマッチング性能を統一するために,画像のマッチングを前景のセグメンテーションと透過予測という2つの段階に分離する。
さらに,境界領域の曖昧さを軽減するため,マルチスケールの減衰核融合モジュールを設計する。
実験の結果,コンポジション1kテストセットと合成統一データセットで uim が最先端の性能を達成できた。
コードとモデルはまもなくリリースされます。
関連論文リスト
- HSVLT: Hierarchical Scale-Aware Vision-Language Transformer for Multi-Label Image Classification [15.129037250680582]
厳密な視覚-言語相互作用は、分類性能を改善する上で重要な役割を担っている。
近年のTransformerベースの手法は,マルチラベル画像分類において大きな成功を収めている。
本稿では,2つの魅力ある設計を持つ階層型視標変換器 (HSVLT) を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:31:42Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Salient Image Matting [0.0]
本研究では,画像中の最も鮮やかな前景の画素あたりの不透明度値を推定するために,Salient Image Mattingという画像マッチングフレームワークを提案する。
我々のフレームワークは、広範囲のセマンティクスと健全なオブジェクトタイプを学ぶという課題を同時に扱う。
私たちのフレームワークは、他の自動メソッドと比較して、わずかな高価なマットデータのみを必要とします。
論文 参考訳(メタデータ) (2021-03-23T06:22:33Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。