論文の概要: Memory Efficient Matting with Adaptive Token Routing
- arxiv url: http://arxiv.org/abs/2412.10702v2
- Date: Tue, 17 Dec 2024 14:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:04.884485
- Title: Memory Efficient Matting with Adaptive Token Routing
- Title(参考訳): 適応的トークンルーティングによるメモリ効率向上
- Authors: Yiheng Lin, Yihan Hu, Chenyi Zhang, Ting Liu, Xiaochao Qu, Luoqi Liu, Yao Zhao, Yunchao Wei,
- Abstract要約: トランスフォーマーベースのモデルは、最近、画像マッチングにおいて優れたパフォーマンスを達成している。
MeMatteは、高解像度画像を処理するためのtextbfMemory-textbfefficient textbfmattingフレームワークである。
- 参考スコア(独自算出の注目度): 73.09131141304984
- License:
- Abstract: Transformer-based models have recently achieved outstanding performance in image matting. However, their application to high-resolution images remains challenging due to the quadratic complexity of global self-attention. To address this issue, we propose MEMatte, a \textbf{m}emory-\textbf{e}fficient \textbf{m}atting framework for processing high-resolution images. MEMatte incorporates a router before each global attention block, directing informative tokens to the global attention while routing other tokens to a Lightweight Token Refinement Module (LTRM). Specifically, the router employs a local-global strategy to predict the routing probability of each token, and the LTRM utilizes efficient modules to simulate global attention. Additionally, we introduce a Batch-constrained Adaptive Token Routing (BATR) mechanism, which allows each router to dynamically route tokens based on image content and the stages of attention block in the network. Furthermore, we construct an ultra high-resolution image matting dataset, UHR-395, comprising 35,500 training images and 1,000 test images, with an average resolution of $4872\times6017$. This dataset is created by compositing 395 different alpha mattes across 11 categories onto various backgrounds, all with high-quality manual annotation. Extensive experiments demonstrate that MEMatte outperforms existing methods on both high-resolution and real-world datasets, significantly reducing memory usage by approximately 88% and latency by 50% on the Composition-1K benchmark. Our code is available at https://github.com/linyiheng123/MEMatte.
- Abstract(参考訳): トランスフォーマーベースのモデルは、最近、画像マッチングにおいて優れたパフォーマンスを達成している。
しかし、大域的自己注意の2次複雑さのため、高解像度画像へのそれらの応用は依然として困難である。
この問題に対処するため,高解像度画像処理のための MEMatte を提案する。
MEMatteは、各グローバルアテンションブロックの前にルータを組み、他のトークンを軽量トークンリファインメントモジュール(LTRM)にルーティングしながら、情報トークンをグローバルアテンションに誘導する。
具体的には、各トークンのルーティング確率を予測するために、ルータはローカル・グローバル戦略を採用し、LTRMは効率的なモジュールを使用してグローバルな注意をシミュレートする。
さらに,Batch-Constrained Adaptive Token Routing (BATR) 機構を導入し,各ルータが画像の内容とネットワーク内の注目ブロックのステージに基づいてトークンを動的にルーティングできるようにする。
さらに,35,500枚のトレーニング画像と1,000枚のテスト画像からなる超高解像度画像マッチングデータセットUHR-395を構築し,平均解像度は4872\times6017$である。
このデータセットは、11のカテゴリにわたる395の異なるアルファマットをさまざまなバックグラウンドに合成することで作成される。
大規模な実験では、MEMatteは高解像度データセットと実世界のデータセットの両方で既存の手法よりも優れており、メモリ使用量を約88%削減し、Compose-1Kベンチマークでは50%遅延している。
私たちのコードはhttps://github.com/linyiheng123/MEMatte.comから入手可能です。
関連論文リスト
- Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval [1.907072234794597]
様々な領域にまたがる強力な意味的イメージ表現を提供する普遍的特徴抽出装置のためのフレームワークを開発する。
Google Universal Image Embedding Challengeでは、mMP@5の0.721で、最先端の成果をほぼ達成しています。
類似の計算条件を持つ手法と比較して,従来の手法よりも3.3ポイント優れていた。
論文 参考訳(メタデータ) (2024-09-20T13:53:13Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Diffusion for Natural Image Matting [88.58577778234036]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z) - Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text
Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。
PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。
提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文 参考訳(メタデータ) (2023-09-16T08:12:12Z) - DiT: Efficient Vision Transformers with Dynamic Token Routing [37.808078064528374]
ダイナミックビジョン変換器における画像トークンのルーティング経路を詳細化するために,データ依存型トークンルーティング方式を提案し,これをDiTと呼ぶ。
提案するフレームワークは,トークン単位のデータ依存パスを生成し,オブジェクトのスケールやトークンの視覚的識別に適応する。
実験では、画像ネット分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける多くのSoTA手法よりも優れた性能と良好な複雑性/精度トレードオフを実現している。
論文 参考訳(メタデータ) (2023-08-07T08:55:48Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - High-Resolution Deep Image Matting [39.72708676319803]
HDMattは、高解像度入力のための最初のディープラーニングベースの画像マッチングアプローチである。
提案手法は,Adobe Image Matting と AlphaMatting のベンチマーク上で,最先端の性能を新たに設定する。
論文 参考訳(メタデータ) (2020-09-14T17:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。