論文の概要: Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation
- arxiv url: http://arxiv.org/abs/2303.13399v1
- Date: Thu, 23 Mar 2023 16:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:31:07.837874
- Title: Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation
- Title(参考訳): 教師なし対話セグメンテーションのためのマルチグラニュラリティインタラクションシミュレーション
- Authors: Kehan Li, Yian Zhao, Zhennan Wang, Zesen Cheng, Peng Jin, Xiangyang
Ji, Li Yuan, Chang Liu, Jie Chen
- Abstract要約: 我々は、教師なし対話的セグメンテーションのための有望な方向を開くために、MIS(Multi-granularity Interaction Simulation)アプローチを導入する。
我々のMISは、非深層学習の非教師付き手法よりも優れており、アノテーションを使わずに従来の深層教師付き手法と同等である。
- 参考スコア(独自算出の注目度): 38.08152990071453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive segmentation enables users to segment as needed by providing cues
of objects, which introduces human-computer interaction for many fields, such
as image editing and medical image analysis. Typically, massive and expansive
pixel-level annotations are spent to train deep models by object-oriented
interactions with manually labeled object masks. In this work, we reveal that
informative interactions can be made by simulation with semantic-consistent yet
diverse region exploration in an unsupervised paradigm. Concretely, we
introduce a Multi-granularity Interaction Simulation (MIS) approach to open up
a promising direction for unsupervised interactive segmentation. Drawing on the
high-quality dense features produced by recent self-supervised models, we
propose to gradually merge patches or regions with similar features to form
more extensive regions and thus, every merged region serves as a
semantic-meaningful multi-granularity proposal. By randomly sampling these
proposals and simulating possible interactions based on them, we provide
meaningful interaction at multiple granularities to teach the model to
understand interactions. Our MIS significantly outperforms non-deep learning
unsupervised methods and is even comparable with some previous deep-supervised
methods without any annotation.
- Abstract(参考訳): インタラクティブセグメンテーションは、画像編集や医用画像分析など、多くの分野にヒューマンコンピュータインタラクションを導入するオブジェクトの手がかりを提供することで、必要に応じてセグメンテーションを可能にする。
通常、大規模で拡張可能なピクセルレベルのアノテーションは、手動でラベル付けされたオブジェクトマスクとオブジェクト指向の相互作用によって深層モデルのトレーニングに費やされる。
本研究では,非教師付きパラダイムを用いて,意味に一貫性のある多種多様な領域探索をシミュレーションすることで,情報的相互作用を実現できることを示す。
具体的には,マルチグラニュラリティ・インタラクション・シミュレーション (MIS) アプローチを導入し,教師なしの対話的セグメンテーションに期待できる方向を開く。
近年の自己監視モデルが生成する高品質な密集した特徴について考察し,類似した特徴を有するパッチや領域を徐々にマージし,より広範囲な領域を形成することを提案する。
これらの提案をランダムにサンプリングし、それらに基づいて可能な相互作用をシミュレートすることにより、複数の粒度で有意義な相互作用を提供し、モデルに相互作用を理解することを教える。
我々のMISは、非深層学習における教師なしの手法よりも優れており、アノテーションのない従来の深層学習手法と同等である。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - COLLAGE: Collaborative Human-Agent Interaction Generation using Hierarchical Latent Diffusion and Language Models [14.130327598928778]
大規模言語モデル (LLMs) と階層型運動固有ベクトル量子化変分オートエンコーダ (VQ-VAEs) を提案する。
我々のフレームワークは、現実的で多様な協調的な人間-オブジェクト-ヒューマンインタラクションを生成し、最先端の手法より優れています。
我々の研究は、ロボット工学、グラフィックス、コンピュータビジョンなど、様々な領域における複雑な相互作用をモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2024-09-30T17:02:13Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Boundary-aware Supervoxel-level Iteratively Refined Interactive 3D Image
Segmentation with Multi-agent Reinforcement Learning [33.181732857907384]
我々は,マルコフ決定プロセス(MDP)を用いた対話型画像分割をモデル化し,強化学習(RL)による解法を提案する。
ボクセル単位の予測のための大規模な探索空間を考えると, エージェント間でボクセルレベルポリシーを共有するマルチエージェント強化学習が採用されている。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-19T15:52:56Z) - A Variational Information Bottleneck Approach to Multi-Omics Data
Integration [98.6475134630792]
本稿では,不完全な多視点観測のための深い変動情報ボトルネック (IB) 手法を提案する。
本手法は,対象物に関連のある視点内および視点間相互作用に焦点をあてるために,観測された視点の辺縁および結合表現にISBフレームワークを適用した。
実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2021-02-05T06:05:39Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。