論文の概要: TraceNet: Segment one thing efficiently
- arxiv url: http://arxiv.org/abs/2406.14874v1
- Date: Fri, 21 Jun 2024 05:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 14:42:51.107878
- Title: TraceNet: Segment one thing efficiently
- Title(参考訳): TraceNet: ひとつのものを効率的に分割する
- Authors: Mingyuan Wu, Zichuan Liu, Haozhen Zheng, Hongpeng Guo, Bo Chen, Xin Lu, Klara Nahrstedt,
- Abstract要約: 本稿では,ユーザが選択した単一インスタンスを肯定的なタップで分割する,ワンタップ駆動の単一インスタンスセグメンテーションタスクを提案する。
選択したインスタンスを受容的フィールドトレースによって明示的に特定するTraceNetを提案する。
我々は、例えばIoU平均におけるTraceNetの性能と、ユーザーがタップした領域の比率を、高品質なシングルインスタンスマスクで評価する。
- 参考スコア(独自算出の注目度): 12.621208412232733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient single instance segmentation is essential for unlocking features in the mobile imaging applications, such as capture or editing. Existing on-the-fly mobile imaging applications scope the segmentation task to portraits or the salient subject due to the computational constraints. Instance segmentation, despite its recent developments towards efficient networks, is still heavy due to the cost of computation on the entire image to identify all instances. To address this, we propose and formulate a one tap driven single instance segmentation task that segments a single instance selected by a user via a positive tap. This task, in contrast to the broader task of segmenting anything as suggested in the Segment Anything Model \cite{sam}, focuses on efficient segmentation of a single instance specified by the user. To solve this problem, we present TraceNet, which explicitly locates the selected instance by way of receptive field tracing. TraceNet identifies image regions that are related to the user tap and heavy computations are only performed on selected regions of the image. Therefore overall computation cost and memory consumption are reduced during inference. We evaluate the performance of TraceNet on instance IoU average over taps and the proportion of the region that a user tap can fall into for a high-quality single-instance mask. Experimental results on MS-COCO and LVIS demonstrate the effectiveness and efficiency of the proposed approach. TraceNet can jointly achieve the efficiency and interactivity, filling in the gap between needs for efficient mobile inference and recent research trend towards multimodal and interactive segmentation models.
- Abstract(参考訳): 効率的な単一インスタンスセグメンテーションは、キャプチャや編集などのモバイルイメージングアプリケーションの機能をアンロックするために不可欠である。
既存のモバイル画像アプリケーションでは、計算上の制約により、ポートレートや有能な対象にセグメンテーションタスクを適用できる。
効率的なネットワークに向けた最近の進歩にもかかわらず、インスタンスセグメンテーションは、すべてのインスタンスを特定するための画像全体の計算コストのため、依然として重い。
そこで本稿では,ユーザが選択した単一インスタンスを正のタップで分割する,ワンタップ駆動の単一インスタンスセグメンテーションタスクを提案する。
このタスクは、Segment Anything Model \cite{sam}で提案されているような、より広範なセグメンテーションのタスクとは対照的に、ユーザが指定した単一インスタンスの効率的なセグメンテーションに焦点を当てます。
この問題を解決するためにTraceNetを提案する。このTraceNetは、選択したインスタンスを、受容的フィールドトレースによって明示的に特定する。
TraceNetは、ユーザのタップに関連する画像領域を特定し、重い計算は、画像の選択された領域でのみ実行される。
したがって、全体的な計算コストとメモリ消費は推論時に減少する。
我々は、例えばIoU平均におけるTraceNetの性能と、ユーザーがタップした領域の比率を、高品質なシングルインスタンスマスクで評価する。
MS-COCOとLVISの実験結果は,提案手法の有効性と有効性を示すものである。
TraceNetは、効率的なモバイル推論の必要性と、マルチモーダルおよびインタラクティブセグメンテーションモデルに向けた最近の研究トレンドの間のギャップを埋め、効率性と相互作用性を共同で達成することができる。
関連論文リスト
- The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。
複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。
以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T08:32:18Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - DynaMITe: Dynamic Query Bootstrapping for Multi-object Interactive
Segmentation Transformer [58.95404214273222]
最先端のインスタンスセグメンテーション手法の多くは、訓練のために大量のピクセル精度のグランドトルースに依存している。
ユーザインタラクションを時間的クエリとして表現するDynaMITeという,より効率的なアプローチを導入する。
我々のアーキテクチャはまた、改善中にイメージ機能を再計算する必要をなくし、単一のイメージに複数のインスタンスをセグメント化するためのインタラクションを少なくする。
論文 参考訳(メタデータ) (2023-04-13T16:57:02Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Cascaded Sparse Feature Propagation Network for Interactive Segmentation [18.584007891618096]
ユーザが提供する情報をラベルなし領域に伝播するためのクリック拡張特徴表現を学習するカスケードスパース特徴伝達ネットワークを提案する。
提案手法の有効性を,様々なベンチマークによる総合的な実験により検証し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-03-10T03:47:24Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - EPSNet: Efficient Panoptic Segmentation Network with Cross-layer
Attention Fusion [5.815742965809424]
高速な推論速度でパノプティカルセグメンテーションタスクに取り組むために,EPSNet(Efficient Panoptic Network)を提案する。
基本的に、EPSNetはプロトタイプマスクとマスク係数の単純な線形結合に基づいてマスクを生成する。
共有プロトタイプの品質を高めるために,我々は"クロスレイヤーアテンション融合モジュール"と呼ばれるモジュールを採用した。
論文 参考訳(メタデータ) (2020-03-23T09:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。