論文の概要: Referring Image Matting
- arxiv url: http://arxiv.org/abs/2206.05149v1
- Date: Fri, 10 Jun 2022 14:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:36:00.555834
- Title: Referring Image Matting
- Title(参考訳): 画像マッチングの参照
- Authors: Jizhizi Li, Jing Zhang, Dacheng Tao
- Abstract要約: RIM(Referring Image Matting)という新しいタスクを提案する。
RIMは、与えられた自然言語の記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを指す。
このギャップを埋めるために、我々は最初の大規模な挑戦的データセットRefMatteを確立する。
- 参考スコア(独自算出の注目度): 85.77905619102802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image matting refers to extracting the accurate foregrounds in the image.
Current automatic methods tend to extract all the salient objects in the image
indiscriminately. In this paper, we propose a new task named Referring Image
Matting (RIM), referring to extracting the meticulous alpha matte of the
specific object that can best match the given natural language description.
However, prevalent visual grounding methods are all limited to the segmentation
level, probably due to the lack of high-quality datasets for RIM. To fill the
gap, we establish the first large-scale challenging dataset RefMatte by
designing a comprehensive image composition and expression generation engine to
produce synthetic images on top of current public high-quality matting
foregrounds with flexible logics and re-labelled diverse attributes. RefMatte
consists of 230 object categories, 47,500 images, 118,749 expression-region
entities, and 474,996 expressions, which can be further extended easily in the
future. Besides this, we also construct a real-world test set with manually
generated phrase annotations consisting of 100 natural images to further
evaluate the generalization of RIM models. We first define the task of RIM in
two settings, i.e., prompt-based and expression-based, and then benchmark
several representative methods together with specific model designs for image
matting. The results provide empirical insights into the limitations of
existing methods as well as possible solutions. We believe the new task RIM
along with the RefMatte dataset will open new research directions in this area
and facilitate future studies. The dataset and code will be made publicly
available at https://github.com/JizhiziLi/RIM.
- Abstract(参考訳): 画像マッチングとは、画像の正確な前景を抽出することである。
現在の自動メソッドは、画像中のすべてのサルエントオブジェクトを無差別に抽出する傾向がある。
本稿では,与えられた自然言語記述に最もよく適合する特定の対象の簡潔なアルファマットを抽出する手法として,Referring Image Matting (RIM) というタスクを提案する。
しかし、一般的な視覚的接地法はすべてセグメンテーションレベルに限定されており、おそらくRIMの高品質なデータセットが不足しているためだろう。
このギャップを埋めるために, 汎用的な画像合成・表現生成エンジンを設計, フレキシブルな論理と再ラベル付き多種多様な属性を用いた現在の高品質なマットリング前景の上に合成画像を生成することで, 大規模に挑戦するデータセットrefmatteを確立する。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、および474,996の式で構成されており、将来的にさらに拡張できる。
さらに,100個の自然画像からなる手動で生成したフレーズアノテーションを用いた実世界のテストセットを構築し,RIMモデルの一般化をさらに評価する。
まず、RIMのタスクをプロンプトベースと表現ベースという2つの設定で定義し、その後、画像マッチングのための特定のモデル設計とともにいくつかの代表的なメソッドをベンチマークする。
その結果、既存のメソッドの制限と可能なソリューションに対する経験的洞察が得られます。
新しいタスクrimとrefmatteデータセットは、この分野に新たな研究方向を開き、今後の研究を促進するだろうと考えています。
データセットとコードはhttps://github.com/JizhiziLi/RIMで公開される。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。