論文の概要: Matting Anything
- arxiv url: http://arxiv.org/abs/2306.05399v1
- Date: Thu, 8 Jun 2023 17:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:09:56.089087
- Title: Matting Anything
- Title(参考訳): 何でもマッティングする
- Authors: Jiachen Li, Jitesh Jain, Humphrey Shi
- Abstract要約: Matting Anything Model (MAM) は、画像中の任意のインスタンスのアルファマットを推定するための効率的なフレームワークである。
我々は,様々な画像マッチングベンチマークにおいて,MAMの性能を評価する。
- 参考スコア(独自算出の注目度): 18.499807510824144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose the Matting Anything Model (MAM), an efficient and
versatile framework for estimating the alpha matte of any instance in an image
with flexible and interactive visual or linguistic user prompt guidance. MAM
offers several significant advantages over previous specialized image matting
networks: (i) MAM is capable of dealing with various types of image matting,
including semantic, instance, and referring image matting with only a single
model; (ii) MAM leverages the feature maps from the Segment Anything Model
(SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha
matte through iterative refinement, which has only 2.7 million trainable
parameters. (iii) By incorporating SAM, MAM simplifies the user intervention
required for the interactive use of image matting from the trimap to the box,
point, or text prompt. We evaluate the performance of MAM on various image
matting benchmarks, and the experimental results demonstrate that MAM achieves
comparable performance to the state-of-the-art specialized image matting models
under different metrics on each benchmark. Overall, MAM shows superior
generalization ability and can effectively handle various image matting tasks
with fewer parameters, making it a practical solution for unified image
matting. Our code and models are open-sourced at
https://github.com/SHI-Labs/Matting-Anything.
- Abstract(参考訳): 本稿では,画像中の任意のインスタンスのアルファマットを,柔軟かつインタラクティブな視覚的あるいは言語的ユーザプロンプトガイダンスで推定する,効率的で汎用的なフレームワークであるmatting anything model(mam)を提案する。
MAMは、以前の特殊な画像マッチングネットワークよりもいくつかの大きな利点を提供している。
(i)MAMは、セマンティック、例、単一のモデルのみでの画像マッチングを参照するなど、さまざまな種類の画像マッチングを扱うことができる。
(ii)MAMはSegment Anything Model (SAM)の機能マップを活用し、軽量のMask-to-Matte (M2M) モジュールを採用し、反復的改良によりアルファ行列を予測する。
三 SAMを組み込むことにより、MAMはトリマップからボックス、ポイント、テキストプロンプトへのインタラクティブな画像マッチングの使用に必要なユーザの介入を単純化する。
各種画像マッチングベンチマークにおけるMAMの性能評価を行い, 実験結果から, MAMは各ベンチマークにおいて, 異なる測定値の下で, 最先端の特殊画像マッチングモデルと同等の性能を達成できることを示した。
全体としては、mamは優れた一般化能力を示し、より少ないパラメータで様々なイメージマットングタスクを効果的に処理できる。
私たちのコードとモデルは、https://github.com/shi-labs/matting-anythingでオープンソースです。
関連論文リスト
- Omni-IML: Towards Unified Image Manipulation Localization [33.38946428507517]
IMLタスクを統一する最初の一般モデルであるOmni-IMLを提案する。
我々は、自然画像、文書画像、顔画像の3つの主要なシナリオにわたるIMLタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-11-22T09:44:13Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization [21.846935203845728]
ローカル操作パイプラインは、強力なSAM、ChatGPT、生成モデルを組み込んだ設計である。
1)AIが操作する画像と実際の画像のペアが100万以上含まれる大規模なデータセット。
本稿では、シャドウトレーサ、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。
論文 参考訳(メタデータ) (2024-06-24T11:10:41Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。