論文の概要: TransMatting: Tri-token Equipped Transformer Model for Image Matting
- arxiv url: http://arxiv.org/abs/2303.06476v1
- Date: Sat, 11 Mar 2023 18:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:40:58.334834
- Title: TransMatting: Tri-token Equipped Transformer Model for Image Matting
- Title(参考訳): TransMatting:画像マッチングのためのトリツーケン型変圧器モデル
- Authors: Huanqia Cai, Fanglei Xue, Lele Xu, Lili Guo
- Abstract要約: 本稿では,トランスフォーマーをベースとしたトランスマターネットワーク(TransMatting)を提案し,長距離機能を持つ透明なオブジェクトをモデル化する。
また、トリマップをトリトーケンという3つの学習可能なトークンとして再設計しました。
提案するTransMattingは,いくつかの人気マッチングベンチマークと新たに収集したTransparent-460において,最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 4.012340049240327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image matting aims to predict alpha values of elaborate uncertainty areas of
natural images, like hairs, smoke, and spider web. However, existing methods
perform poorly when faced with highly transparent foreground objects due to the
large area of uncertainty to predict and the small receptive field of
convolutional networks. To address this issue, we propose a Transformer-based
network (TransMatting) to model transparent objects with long-range features
and collect a high-resolution matting dataset of transparent objects
(Transparent-460) for performance evaluation. Specifically, to utilize semantic
information in the trimap flexibly and effectively, we also redesign the trimap
as three learnable tokens, named tri-token. Both Transformer and convolution
matting models could benefit from our proposed tri-token design. By replacing
the traditional trimap concatenation strategy with our tri-token, existing
matting methods could achieve about 10% improvement in SAD and 20% in MSE.
Equipped with the new tri-token design, our proposed TransMatting outperforms
current state-of-the-art methods on several popular matting benchmarks and our
newly collected Transparent-460.
- Abstract(参考訳): image mattingは、毛髪、煙、クモの巣など、自然画像の精巧な不確かさ領域のアルファ値を予測することを目的としている。
しかし, 従来手法では, 予測の不確実性が大きいこと, 畳み込みネットワークの受容領域が小さいことなどから, 高度に透明なフォアグラウンドオブジェクトに直面すると性能が低下する。
そこで本研究では,長距離機能を持つ透明物体をモデル化し,性能評価のために透明物体(transparent-460)の高分解能マットングデータセットを収集するトランスフォーマッティング(transmatting)を提案する。
具体的には,trimapにおける意味情報を柔軟かつ効果的に活用するために,trimapをtri-tokenと呼ばれる3つの学習可能なトークンとして再設計する。
Transformerと畳み込みマッチングモデルの両方が、提案したトリトーケン設計の恩恵を受けるだろう。
従来のトリマップ結合戦略をトリトーケンに置き換えることで,既存のマッチング手法はSADの約10%,MSEの約20%の改善を達成できる。
提案したTransMattingは,新たに収集したTransparent-460およびいくつかの人気マッチングベンチマークにおいて,最先端の手法よりも優れている。
関連論文リスト
- Towards Natural Image Matting in the Wild via Real-Scenario Prior [69.96414467916863]
我々は,COCOデータセット,すなわちCOCO-Mattingに基づく新しいマッチングデータセットを提案する。
構築されたCOCO-Mattingは、複雑な自然シナリオにおける38,251人のインスタンスレベルのアルファマットの広範なコレクションを含む。
ネットワークアーキテクチャにおいて、提案する特徴整合変換器は、きめ細かいエッジと透過性を抽出することを学ぶ。
提案したマットアライメントデコーダは、マット固有のオブジェクトを分割し、粗いマスクを高精度なマットに変換することを目的としている。
論文 参考訳(メタデータ) (2024-10-09T06:43:19Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - TransMatting: Enhancing Transparent Objects Matting with Transformers [4.012340049240327]
本研究では,トランスフォーマーをベースとしたトランスマターネットワークを提案し,大きな受容場を持つ透明なオブジェクトをモデル化する。
エンコーダからデコーダへのマルチスケール特徴伝搬を導くために,グローバル機能と非バックグラウンドマスクを利用するために,小さな畳み込みネットワークを提案する。
我々は、小さなフォアグラウンド領域を持つ透明物体の高分解能マッチングデータセットを作成する。
論文 参考訳(メタデータ) (2022-08-05T06:44:14Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Human Perception Modeling for Automatic Natural Image Matting [2.179313476241343]
natural image mattingは、alpha matteを使って、フォアグラウンドオブジェクトを背景から正確に分離することを目的としている。
アノテーションを付加せずに直感的に設計したトリマップフリー2段階マッチング手法を提案する。
このマッティングアルゴリズムは,現在最先端の手法と,trimap-freeとtrimap-needの両方の面で競合する性能を持つ。
論文 参考訳(メタデータ) (2021-03-31T12:08:28Z) - Salient Image Matting [0.0]
本研究では,画像中の最も鮮やかな前景の画素あたりの不透明度値を推定するために,Salient Image Mattingという画像マッチングフレームワークを提案する。
我々のフレームワークは、広範囲のセマンティクスと健全なオブジェクトタイプを学ぶという課題を同時に扱う。
私たちのフレームワークは、他の自動メソッドと比較して、わずかな高価なマットデータのみを必要とします。
論文 参考訳(メタデータ) (2021-03-23T06:22:33Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。