論文の概要: Referring Image Matting
- arxiv url: http://arxiv.org/abs/2206.05149v3
- Date: Wed, 22 Mar 2023 03:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:08:22.346702
- Title: Referring Image Matting
- Title(参考訳): 画像マッチングの参照
- Authors: Jizhizi Li, Jing Zhang, Dacheng Tao
- Abstract要約: 本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。
RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
- 参考スコア(独自算出の注目度): 85.77905619102802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from conventional image matting, which either requires user-defined
scribbles/trimap to extract a specific foreground object or directly extracts
all the foreground objects in the image indiscriminately, we introduce a new
task named Referring Image Matting (RIM) in this paper, which aims to extract
the meticulous alpha matte of the specific object that best matches the given
natural language description, thus enabling a more natural and simpler
instruction for image matting. First, we establish a large-scale challenging
dataset RefMatte by designing a comprehensive image composition and expression
generation engine to automatically produce high-quality images along with
diverse text attributes based on public datasets. RefMatte consists of 230
object categories, 47,500 images, 118,749 expression-region entities, and
474,996 expressions. Additionally, we construct a real-world test set with 100
high-resolution natural images and manually annotate complex phrases to
evaluate the out-of-domain generalization abilities of RIM methods.
Furthermore, we present a novel baseline method CLIPMat for RIM, including a
context-embedded prompt, a text-driven semantic pop-up, and a multi-level
details extractor. Extensive experiments on RefMatte in both keyword and
expression settings validate the superiority of CLIPMat over representative
methods. We hope this work could provide novel insights into image matting and
encourage more follow-up studies. The dataset, code and models are available at
https://github.com/JizhiziLi/RIM.
- Abstract(参考訳): 本論文では,特定の前景オブジェクトを抽出したり,画像中のすべての前景オブジェクトを直接抽出するために,ユーザ定義のスクリブル/トリマップを必要とする従来の画像マッチングとは違って,画像マッチング(RIM)と呼ばれるタスクを導入し,与えられた自然言語記述に最もよく適合する特定の対象の精巧なアルファマットを抽出することを目的としている。
まず,公開データセットに基づく多彩なテキスト属性とともに高品質な画像を自動的に生成する総合的な画像合成・表現生成エンジンを設計することにより,大規模に挑戦的なデータセットリフマットを確立する。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
さらに,100個の高分解能自然画像を含む実世界テストセットを構築し,複雑なフレーズを手作業で注釈し,rim法の領域外一般化能力を評価する。
さらに,コンテキスト埋め込みプロンプト,テキスト駆動型セマンティックポップアップ,マルチレベル詳細抽出器など,RIM用の新しいベースライン方式CLIPMatを提案する。
キーワードと式設定の両方におけるRefMatteに関する大規模な実験は、代表メソッドよりもCLIPMatの方が優れていることを検証する。
この研究が、画像マッチングに関する新たな洞察を与え、さらなるフォローアップ研究を促進することを期待しています。
データセット、コード、モデルはhttps://github.com/JizhiziLi/RIMで入手できる。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。