論文の概要: Toward Real-World High-Precision Image Matting and Segmentation
- arxiv url: http://arxiv.org/abs/2601.12080v1
- Date: Sat, 17 Jan 2026 15:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.453346
- Title: Toward Real-World High-Precision Image Matting and Segmentation
- Title(参考訳): 実世界の高精度画像マッチングとセグメンテーションに向けて
- Authors: Haipeng Zhou, Zhaohu Xing, Hongqiu Wang, Jun Ma, Ping Li, Lei Zhu,
- Abstract要約: 本稿では、前述の問題に対処するため、FCLMと呼ばれる前景一貫性学習モデルを提案する。
まず,深度関連知識を前景表現のために伝達する深度対応蒸留方式を提案する。
対話型予測を支援するために,視覚と言語の両方のプロンプトを受信して参照対象を予測できるオブジェクト指向デコーダを提案する。
- 参考スコア(独自算出の注目度): 19.892441742183347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-precision scene parsing tasks, including image matting and dichotomous segmentation, aim to accurately predict masks with extremely fine details (such as hair). Most existing methods focus on salient, single foreground objects. While interactive methods allow for target adjustment, their class-agnostic design restricts generalization across different categories. Furthermore, the scarcity of high-quality annotation has led to a reliance on inharmonious synthetic data, resulting in poor generalization to real-world scenarios. To this end, we propose a Foreground Consistent Learning model, dubbed as FCLM, to address the aforementioned issues. Specifically, we first introduce a Depth-Aware Distillation strategy where we transfer the depth-related knowledge for better foreground representation. Considering the data dilemma, we term the processing of synthetic data as domain adaptation problem where we propose a domain-invariant learning strategy to focus on foreground learning. To support interactive prediction, we contribute an Object-Oriented Decoder that can receive both visual and language prompts to predict the referring target. Experimental results show that our method quantitatively and qualitatively outperforms SOTA methods.
- Abstract(参考訳): 画像マッチングやディコトミスセグメンテーションなどの高精度なシーン解析タスクは、非常に細部(髪など)の細かいマスクを正確に予測することを目的としている。
既存のほとんどのメソッドは、厳格で単一のフォアグラウンドオブジェクトに焦点を当てています。
対話的な手法は対象の調整を可能にするが、クラスに依存しない設計は異なるカテゴリにわたる一般化を制限する。
さらに、高品質なアノテーションの不足は、不調和な合成データに依存するようになり、現実のシナリオへの一般化が不十分になった。
そこで本研究では,前述の問題に対処するため,FCLMと呼ばれる前景一貫性学習モデルを提案する。
具体的には,まず,深度関係の知識を前景表現のために伝達する深度認識蒸留戦略を導入する。
データジレンマを考慮すると、合成データの処理をドメイン適応問題と呼び、前景学習に焦点を当てたドメイン不変学習戦略を提案する。
対話型予測を支援するために,視覚と言語の両方のプロンプトを受信して参照対象を予測できるオブジェクト指向デコーダを提案する。
実験結果から,本手法はSOTA法よりも定量的かつ定性的に優れていることがわかった。
関連論文リスト
- From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios [66.57089888022414]
DenseWorldは、緊急な現実世界のアプリケーションに対応する、25の密集した予測タスクの幅広いセットにまたがるベンチマークである。
次に,DenseDiTを提案する。DenseDiTは,生成モデルの視覚的先行性を利用して,統合された戦略により,多種多様な実世界の密集予測タスクを実行する。
DenseDiTは、ベースラインの0.01%未満のトレーニングデータを使用して優れた結果を得る。
論文 参考訳(メタデータ) (2025-06-25T09:40:50Z) - Semantics-Oriented Multitask Learning for DeepFake Detection: A Joint Embedding Approach [77.65459419417533]
本稿では,セマンティクス指向のDeepFake検出タスクをサポートする自動データセット拡張手法を提案する。
また,顔画像とラベル(テキストによる記述で示される)を併用して予測を行う。
提案手法は,DeepFake検出の一般化性を向上し,人間の理解可能な説明を提供することで,ある程度のモデル解釈を行う。
論文 参考訳(メタデータ) (2024-08-29T07:11:50Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Unsupervised Image Segmentation by Mutual Information Maximization and
Adversarial Regularization [7.165364364478119]
InMARS(Information Maximization and Adrial Regularization)と呼ばれる新しい教師なしセマンティックセマンティックセマンティクス手法を提案する。
シーンを知覚群に解析する人間の知覚に触発され、提案手法はまず、入力画像を意味のある領域(スーパーピクセルとも呼ばれる)に分割する。
次に、相互情報最大化(Multual-Information-Maximization)と、それらの領域を意味論的に意味のあるクラスにクラスタ化するための敵対的トレーニング戦略を利用する。
提案手法は2つの非教師付きセマンティックセグメンテーションデータセット上での最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2021-07-01T18:36:27Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z) - Combining Semantic Guidance and Deep Reinforcement Learning For
Generating Human Level Paintings [22.889059874754242]
脳卒中に基づく非フォトリアリスティック画像の生成は、コンピュータビジョンコミュニティにおいて重要な問題である。
従来の手法は、前景オブジェクトの位置、規模、正当性にほとんど変化のないデータセットに限られていた。
本研究では,1)前景と背景の筆画の区別を学習するための2段階の塗装手順を備えたセマンティック・ガイダンス・パイプラインを提案する。
論文 参考訳(メタデータ) (2020-11-25T09:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。