論文の概要: Situational Perception Guided Image Matting
- arxiv url: http://arxiv.org/abs/2204.09276v3
- Date: Fri, 22 Apr 2022 11:01:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 10:59:59.120140
- Title: Situational Perception Guided Image Matting
- Title(参考訳): 状況知覚誘導型イメージマットリング
- Authors: Bo Xu and Jiake Xie and Han Huang and Ziwen Li and Cheng Lu and Yong
Tang and Yandong Guo
- Abstract要約: 本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
- 参考スコア(独自算出の注目度): 16.1897179939677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most automatic matting methods try to separate the salient foreground from
the background. However, the insufficient quantity and subjective bias of the
current existing matting datasets make it difficult to fully explore the
semantic association between object-to-object and object-to-environment in a
given image. In this paper, we propose a Situational Perception Guided Image
Matting (SPG-IM) method that mitigates subjective bias of matting annotations
and captures sufficient situational perception information for better global
saliency distilled from the visual-to-textual task. SPG-IM can better associate
inter-objects and object-to-environment saliency, and compensate the subjective
nature of image matting and its expensive annotation. We also introduce a
textual Semantic Transformation (TST) module that can effectively transform and
integrate the semantic feature stream to guide the visual representations. In
addition, an Adaptive Focal Transformation (AFT) Refinement Network is proposed
to adaptively switch multi-scale receptive fields and focal points to enhance
both global and local details. Extensive experiments demonstrate the
effectiveness of situational perception guidance from the visual-to-textual
tasks on image matting, and our model outperforms the state-of-the-art methods.
We also analyze the significance of different components in our model. The code
will be released soon.
- Abstract(参考訳): ほとんどの自動マット方式は、前景を背景から切り離そうとしている。
しかし、既存のマッティングデータセットの量と主観バイアスが不十分であるため、与えられた画像におけるオブジェクトからオブジェクトへの関係とオブジェクトから環境への意味的関係を十分に探求することは困難である。
本稿では,マットアノテーションの主観的偏見を緩和し,視覚的・テクスチャ的タスクから抽出したより優れたグローバル・サリエンシのための十分な状況認識情報をキャプチャする状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは画像マッチングの主観的性質と高価なアノテーションを補うことにより、オブジェクト間やオブジェクト間サリエンシをよりよく関連付けることができる。
また,テキストセマンティックトランスフォーメーション(TST)モジュールを導入し,意味的特徴ストリームを効果的に変換し,統合して視覚的表現を導く。
さらに,多スケールの受容場と焦点を適応的に切り替えてグローバル・ローカルの細部を拡大するために,適応的焦点変換(AFT)リファインメントネットワークを提案する。
広範な実験により,視覚からテキストへのタスクにおける状況知覚指導の有効性が示され,本モデルは最先端手法を上回っている。
また、モデルにおける異なるコンポーネントの重要性を分析する。
コードはまもなくリリースされる。
関連論文リスト
- Learning with Multi-modal Gradient Attention for Explainable Composed
Image Retrieval [15.24270990274781]
そこで本研究では,各検索ステップで修正される関心領域に,モデルに明示的に集中するよう強制する,グラディショナル・アテンションに基づく新たな学習目標を提案する。
我々は,MMGradをエンド・ツー・エンドのモデルトレーニング戦略に組み込む方法を示し,これらのMMGradアテンションマップに修正文に対応する適切な局所領域の強調を強制する新たな学習目標を示す。
論文 参考訳(メタデータ) (2023-08-31T11:46:27Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - SemAug: Semantically Meaningful Image Augmentations for Object Detection
Through Language Grounding [5.715548995729382]
本研究では,シーンに文脈的に意味のある知識を注入することで,画像強調のための効果的な手法を提案する。
本手法は,意味的に適切な新しいオブジェクトを抽出することから,言語接地によるオブジェクト検出のための意味的意味的画像強調法であるSemAugを出発点とする。
論文 参考訳(メタデータ) (2022-08-15T19:00:56Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Towards Full-to-Empty Room Generation with Structure-Aware Feature
Encoding and Soft Semantic Region-Adaptive Normalization [67.64622529651677]
本稿では,ソフトセマンティックな領域適応正規化モジュール (softSEAN) ブロックを提案する。
我々のアプローチは、トレーニングの複雑さと非微分可能性の問題を緩和することの利点の他に、比較した手法を量的にも質的にも上回っている。
我々のSoftSEANブロックは、既存の識別および生成モデルのためのドロップインモジュールとして使用することができる。
論文 参考訳(メタデータ) (2021-12-10T09:00:13Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。