Fugu-MT 論文翻訳(概要): Matting Anything

論文の概要: Matting Anything

arxiv url: http://arxiv.org/abs/2306.05399v2
Date: Thu, 16 Nov 2023 23:52:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 19:11:17.174013
Title: Matting Anything
Title（参考訳）: 何でもマッティングする
Authors: Jiachen Li, Jitesh Jain, Humphrey Shi
Abstract要約: Matting Anything Model (MAM) は、画像中の任意のインスタンスのアルファマットを推定するための効率的なフレームワークである。我々は,様々な画像マッチングベンチマークにおいて,MAMの性能を評価する。
参考スコア（独自算出の注目度）: 30.45052699696115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose the Matting Anything Model (MAM), an efficient and versatile framework for estimating the alpha matte of any instance in an image with flexible and interactive visual or linguistic user prompt guidance. MAM offers several significant advantages over previous specialized image matting networks: (i) MAM is capable of dealing with various types of image matting, including semantic, instance, and referring image matting with only a single model; (ii) MAM leverages the feature maps from the Segment Anything Model (SAM) and adopts a lightweight Mask-to-Matte (M2M) module to predict the alpha matte through iterative refinement, which has only 2.7 million trainable parameters. (iii) By incorporating SAM, MAM simplifies the user intervention required for the interactive use of image matting from the trimap to the box, point, or text prompt. We evaluate the performance of MAM on various image matting benchmarks, and the experimental results demonstrate that MAM achieves comparable performance to the state-of-the-art specialized image matting models under different metrics on each benchmark. Overall, MAM shows superior generalization ability and can effectively handle various image matting tasks with fewer parameters, making it a practical solution for unified image matting. Our code and models are open-sourced at https://github.com/SHI-Labs/Matting-Anything.
Abstract（参考訳）: 本稿では,画像中の任意のインスタンスのアルファマットを,柔軟かつインタラクティブな視覚的あるいは言語的ユーザプロンプトガイダンスで推定する,効率的で汎用的なフレームワークであるmatting anything model(mam)を提案する。 MAMは、以前の特殊な画像マッチングネットワークよりもいくつかの大きな利点を提供している。 (i)MAMは、セマンティック、例、単一のモデルのみでの画像マッチングを参照するなど、さまざまな種類の画像マッチングを扱うことができる。 (ii)MAMはSegment Anything Model (SAM)の機能マップを活用し、軽量のMask-to-Matte (M2M) モジュールを採用し、反復的改良によりアルファ行列を予測する。三 SAMを組み込むことにより、MAMはトリマップからボックス、ポイント、テキストプロンプトへのインタラクティブな画像マッチングの使用に必要なユーザの介入を単純化する。各種画像マッチングベンチマークにおけるMAMの性能評価を行い, 実験結果から, MAMは各ベンチマークにおいて, 異なる測定値の下で, 最先端の特殊画像マッチングモデルと同等の性能を達成できることを示した。全体としては、mamは優れた一般化能力を示し、より少ないパラメータで様々なイメージマットングタスクを効果的に処理できる。私たちのコードとモデルは、https://github.com/shi-labs/matting-anythingでオープンソースです。

関連論文リスト

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models [89.89575486159795]
マルチイメージコンテキスト生成のためのベンチマークである textbfMICON-Bench を導入する。本稿では,意味的および視覚的整合性の自動検証のためのMLLM駆動型評価-Checkpointフレームワークを提案する。また、推論中に注意を動的に調整し、コヒーレンスを高め、幻覚を減らす訓練不要なプラグアンドプレイ機構であるtextbfDynamic Attention Rebalancing (DAR) を提案する。
論文参考訳（メタデータ） (2026-02-23T04:32:52Z)
Segment and Matte Anything in a Unified Model [5.8874968768571625]
Segment Anything (SAM)は先日,ゼロショットの一般化とフレキシブルプロンプトを実証することによって,セグメンテーションの境界を推し進めた。 SAMの軽量拡張であるSegment And Matte Anything(SAMA)を紹介する。
論文参考訳（メタデータ） (2026-01-17T19:43:10Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文参考訳（メタデータ） (2025-01-10T07:56:23Z)
Omni-IML: Towards Unified Image Manipulation Localization [33.38946428507517]
IMLタスクを統一する最初の一般モデルであるOmni-IMLを提案する。我々は、自然画像、文書画像、顔画像の3つの主要なシナリオにわたるIMLタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2024-11-22T09:44:13Z)
ZIM: Zero-Shot Image Matting for Anything [9.278124835968033]
我々はZIMと呼ばれる新しいゼロショット画像マッチングモデルを開発し、2つの重要な貢献を行った。まず,セグメンテーションラベルを詳細なマットラベルに変換するラベル変換器を開発し,コストのかかる手動アノテーションを使わずに新しいSA1B-Matteデータセットを構築した。第2に,マスク表現を向上する階層型画素デコーダを備えたゼロショットマッチングモデルを設計する。
論文参考訳（メタデータ） (2024-11-01T14:34:33Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文参考訳（メタデータ） (2024-07-21T21:22:58Z)
GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization [21.846935203845728]
ローカル操作パイプラインは、強力なSAM、ChatGPT、生成モデルを組み込んだ設計である。 1)AIが操作する画像と実際の画像のペアが100万以上含まれる大規模なデータセット。本稿では、シャドウトレーサ、周波数空間ブロック(FSB)、マルチウィンドウ異常モデリング(MWAM)モジュールからなる新しいIMDLフレームワークGIMFormerを提案する。
論文参考訳（メタデータ） (2024-06-24T11:10:41Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文参考訳（メタデータ） (2024-03-14T17:51:32Z)
PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文参考訳（メタデータ） (2024-01-01T03:45:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。