論文の概要: Multi-scale Information Assembly for Image Matting
- arxiv url: http://arxiv.org/abs/2101.02391v2
- Date: Wed, 3 Mar 2021 11:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:37:01.798593
- Title: Multi-scale Information Assembly for Image Matting
- Title(参考訳): 画像マッティングのためのマルチスケール情報アセンブリ
- Authors: Yu Qiao, Yuhao Liu, Qiang Zhu, Xin Yang, Yuxin Wang, Qiang Zhang, and
Xiaopeng Wei
- Abstract要約: 単一のRGB画像から高品質のアルファマットを取り出すマルチスケール情報組み立てフレームワーク(MSIA-matte)を提案する。
既存のマッティングネットワークと比較して、最先端のパフォーマンスを実現できます。
- 参考スコア(独自算出の注目度): 35.43994064645042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image matting is a long-standing problem in computer graphics and vision,
mostly identified as the accurate estimation of the foreground in input images.
We argue that the foreground objects can be represented by different-level
information, including the central bodies, large-grained boundaries, refined
details, etc. Based on this observation, in this paper, we propose a
multi-scale information assembly framework (MSIA-matte) to pull out
high-quality alpha mattes from single RGB images. Technically speaking, given
an input image, we extract advanced semantics as our subject content and retain
initial CNN features to encode different-level foreground expression, then
combine them by our well-designed information assembly strategy. Extensive
experiments can prove the effectiveness of the proposed MSIA-matte, and we can
achieve state-of-the-art performance compared to most existing matting
networks.
- Abstract(参考訳): 画像マッチングはコンピュータグラフィックスと視覚における長年の問題であり、主に入力画像の前景を正確に推定するものである。
我々は、フォアグラウンドオブジェクトは、中央のボディ、大きめの境界、精細化された詳細など、異なるレベルの情報で表現できると主張している。
本稿では,この観察に基づいて,単一のrgb画像から高品質なアルファマットを抽出するマルチスケール情報アセンブリフレームワーク(msia-matte)を提案する。
技術的に言えば、入力画像から対象コンテンツとして高度なセマンティクスを抽出し、異なるレベルの前景表現を符号化する初期CNN機能を保持し、よく設計された情報集合戦略と組み合わせる。
広汎な実験により提案したMSIA-matteの有効性が証明でき、既存のマットネットワークと比較して最先端の性能を達成できる。
関連論文リスト
- Multi-Head Attention Residual Unfolded Network for Model-Based Pansharpening [2.874893537471256]
展開融合法は、ディープラーニングの強力な表現能力とモデルベースアプローチの堅牢性を統合する。
本稿では,衛星画像融合のためのモデルに基づく深部展開手法を提案する。
PRISMA、Quickbird、WorldView2データセットの実験結果から、本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-09-04T13:05:00Z) - DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception [43.387076189063556]
高品質な画像テキストデータセットは、多様な視覚的要素と画像記述全体を提供する。
現在のキャプションエンジンは、完全かつ正確なアノテーションを提供していない。
本稿では,低予算かつ高効率なキャプションエンジンを用いた知覚融合法を提案する。
論文 参考訳(メタデータ) (2024-07-11T08:48:06Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Hierarchical and Progressive Image Matting [40.291998690687514]
エンド・ツー・エンドの階層的・プログレッシブ・アテンション・マッチング・ネットワーク(HAttMatting++)を提案する。
入力を追加することなく、単一のRGB画像から前景の不透明度を予測することができる。
59,600のトレーニング画像と1000のテスト画像からなる大規模かつ困難な画像マッチングデータセットを構築した。
論文 参考訳(メタデータ) (2022-10-13T11:16:49Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。