Fugu-MT 論文翻訳(概要): Memory Efficient Matting with Adaptive Token Routing

論文の概要: Memory Efficient Matting with Adaptive Token Routing

arxiv url: http://arxiv.org/abs/2412.10702v1
Date: Sat, 14 Dec 2024 06:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.762763
Title: Memory Efficient Matting with Adaptive Token Routing
Title（参考訳）: 適応的トークンルーティングによるメモリ効率向上
Authors: Yiheng Lin, Yihan Hu, Chenyi Zhang, Ting Liu, Xiaochao Qu, Luoqi Liu, Yao Zhao, Yunchao Wei,
Abstract要約: MEMatteは高解像度画像を処理するためのメモリ効率のよいマッチングフレームワークである。 MeMatteは、高解像度と実世界の両方のデータセットにおいて、既存のメソッドよりも優れています。
参考スコア（独自算出の注目度）: 73.09131141304984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based models have recently achieved outstanding performance in image matting. However, their application to high-resolution images remains challenging due to the quadratic complexity of global self-attention. To address this issue, we propose MEMatte, a memory-efficient matting framework for processing high-resolution images. MEMatte incorporates a router before each global attention block, directing informative tokens to the global attention while routing other tokens to a Lightweight Token Refinement Module (LTRM). Specifically, the router employs a local-global strategy to predict the routing probability of each token, and the LTRM utilizes efficient modules to simulate global attention. Additionally, we introduce a Batch-constrained Adaptive Token Routing (BATR) mechanism, which allows each router to dynamically route tokens based on image content and the stages of attention block in the network. Furthermore, we construct an ultra high-resolution image matting dataset, UHR-395, comprising 35,500 training images and 1,000 test images, with an average resolution of $4872\times6017$. This dataset is created by compositing 395 different alpha mattes across 11 categories onto various backgrounds, all with high-quality manual annotation. Extensive experiments demonstrate that MEMatte outperforms existing methods on both high-resolution and real-world datasets, significantly reducing memory usage by approximately 88% and latency by 50% on the Composition-1K benchmark.
Abstract（参考訳）: トランスフォーマーベースのモデルは、最近、画像マッチングにおいて優れたパフォーマンスを達成している。しかし、大域的自己注意の2次複雑さのため、高解像度画像へのそれらの応用は依然として困難である。本稿では,高解像度画像処理のためのメモリ効率なマッチングフレームワークであるMEMatteを提案する。 MEMatteは、各グローバルアテンションブロックの前にルータを組み、他のトークンを軽量トークンリファインメントモジュール(LTRM)にルーティングしながら、情報トークンをグローバルアテンションに誘導する。具体的には、各トークンのルーティング確率を予測するために、ルータはローカル・グローバル戦略を採用し、LTRMは効率的なモジュールを使用してグローバルな注意をシミュレートする。さらに,Batch-Constrained Adaptive Token Routing (BATR) 機構を導入し,各ルータが画像の内容とネットワーク内の注目ブロックのステージに基づいてトークンを動的にルーティングできるようにする。さらに,35,500枚のトレーニング画像と1,000枚のテスト画像からなる超高解像度画像マッチングデータセットUHR-395を構築し,平均解像度は4872\times6017$である。このデータセットは、11のカテゴリにわたる395の異なるアルファマットをさまざまなバックグラウンドに合成することで作成される。大規模な実験では、MEMatteは高解像度データセットと実世界のデータセットの両方で既存の手法よりも優れており、メモリ使用量を約88%削減し、Compose-1Kベンチマークでは50%遅延している。

関連論文リスト

CARES: Context-Aware Resolution Selector for VLMs [29.734101330721263]
大規模な視覚言語モデル(VLM)は、通常、ネイティブまたは高解像度で画像を処理し、タスク全体にわたって効果的に維持する。本稿では,簡単な事前処理モジュールであるemphCARESを紹介する。 CARESはタスク性能を最大80%削減しながら維持する。
論文参考訳（メタデータ） (2025-10-22T11:44:31Z)
FTCFormer: Fuzzy Token Clustering Transformer for Image Classification [22.410199372985584]
トランスフォーマーベースのディープニューラルネットワークは、様々なコンピュータビジョンタスクで顕著な成功を収めている。ほとんどのトランスフォーマーアーキテクチャは、イメージを均一なグリッドベースの視覚トークンに埋め込み、画像領域の基本的な意味を無視する。本研究では,空間的位置ではなく意味に基づく視覚トークンを動的に生成するFuzzy Token Clustering Transformer (FTCFormer)を提案する。
論文参考訳（メタデータ） (2025-07-14T13:49:47Z)
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文参考訳（メタデータ） (2025-03-10T17:51:16Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文参考訳（メタデータ） (2024-12-22T02:04:17Z)
Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval [1.907072234794597]
様々な領域にまたがる強力な意味的イメージ表現を提供する普遍的特徴抽出装置のためのフレームワークを開発する。 Google Universal Image Embedding Challengeでは、mMP@5の0.721で、最先端の成果をほぼ達成しています。類似の計算条件を持つ手法と比較して,従来の手法よりも3.3ポイント優れていた。
論文参考訳（メタデータ） (2024-09-20T13:53:13Z)
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文参考訳（メタデータ） (2024-06-12T17:59:49Z)
Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文参考訳（メタデータ） (2023-12-12T02:10:16Z)
Diffusion for Natural Image Matting [88.58577778234036]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文参考訳（メタデータ） (2023-12-10T15:28:56Z)
Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。 PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文参考訳（メタデータ） (2023-09-16T08:12:12Z)
DiT: Efficient Vision Transformers with Dynamic Token Routing [37.808078064528374]
ダイナミックビジョン変換器における画像トークンのルーティング経路を詳細化するために,データ依存型トークンルーティング方式を提案し,これをDiTと呼ぶ。提案するフレームワークは,トークン単位のデータ依存パスを生成し,オブジェクトのスケールやトークンの視覚的識別に適応する。実験では、画像ネット分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける多くのSoTA手法よりも優れた性能と良好な複雑性/精度トレードオフを実現している。
論文参考訳（メタデータ） (2023-08-07T08:55:48Z)
Multi-interactive Feature Learning and a Full-time Multi-modality Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-08-04T01:03:58Z)
Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文参考訳（メタデータ） (2023-05-20T17:01:52Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)
Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2020-10-30T10:57:13Z)
High-Resolution Deep Image Matting [39.72708676319803]
HDMattは、高解像度入力のための最初のディープラーニングベースの画像マッチングアプローチである。提案手法は,Adobe Image Matting と AlphaMatting のベンチマーク上で,最先端の性能を新たに設定する。
論文参考訳（メタデータ） (2020-09-14T17:53:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。