論文の概要: Interactive Image Segmentation with Cross-Modality Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.02280v1
- Date: Wed, 5 Jul 2023 13:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:34:35.159227
- Title: Interactive Image Segmentation with Cross-Modality Vision Transformers
- Title(参考訳): クロスモダリティ視覚変換器を用いたインタラクティブ画像セグメンテーション
- Authors: Kun Li, George Vosselman, Michael Ying Yang
- Abstract要約: クロスモダリティ・ビジョン・トランスフォーマーは、学習プロセスをより良くガイドするために相互情報を利用する。
障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。
- 参考スコア(独自算出の注目度): 18.075338835513993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive image segmentation aims to segment the target from the background
with the manual guidance, which takes as input multimodal data such as images,
clicks, scribbles, and bounding boxes. Recently, vision transformers have
achieved a great success in several downstream visual tasks, and a few efforts
have been made to bring this powerful architecture to interactive segmentation
task. However, the previous works neglect the relations between two modalities
and directly mock the way of processing purely visual information with
self-attentions. In this paper, we propose a simple yet effective network for
click-based interactive segmentation with cross-modality vision transformers.
Cross-modality transformers exploits mutual information to better guide the
learning process. The experiments on several benchmarks show that the proposed
method achieves superior performance in comparison to the previous
state-of-the-art models. The stability of our method in term of avoiding
failure cases shows its potential to be a practical annotation tool. The code
and pretrained models will be released under
https://github.com/lik1996/iCMFormer.
- Abstract(参考訳): インタラクティブなイメージセグメンテーションは、画像、クリック、スクリブル、バウンディングボックスなどの入力マルチモーダルデータとして取り込むマニュアルガイダンスで、ターゲットを背景から分割することを目的としている。
近年、視覚変換器はいくつかの下流視覚タスクで大きな成功を収めており、この強力なアーキテクチャを対話型セグメンテーションタスクに導入する試みがいくつか行われている。
しかし、以前の研究は2つのモダリティの関係を無視し、純粋に視覚的な情報を自己注意で処理する方法を直接模倣した。
本稿では,クロスモダリティビジョントランスフォーマタを用いたクリックベースのインタラクティブセグメンテーションのための,単純かつ効果的なネットワークを提案する。
モダリティ変換器は相互情報を利用して学習プロセスをより良くガイドする。
いくつかのベンチマーク実験により,提案手法は従来の最先端モデルと比較して優れた性能を示した。
障害発生回避の観点からの本手法の安定性は,実用的なアノテーションツールとしての可能性を示している。
コードと事前トレーニングされたモデルはhttps://github.com/lik1996/icmformerでリリースされる。
関連論文リスト
- Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - Learning from Exemplars for Interactive Image Segmentation [15.37506525730218]
同一カテゴリにおける1つのオブジェクトと複数のオブジェクトの両方に対して、新しい対話的セグメンテーションフレームワークを導入する。
当社のモデルでは,ターゲットIoUの85%と90%を達成するために,クリック数が2回削減されるため,ユーザの労力を約15%削減する。
論文 参考訳(メタデータ) (2024-06-17T12:38:01Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。