論文の概要: Loci-Segmented: Improving Scene Segmentation Learning
- arxiv url: http://arxiv.org/abs/2310.10410v1
- Date: Mon, 16 Oct 2023 13:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:05:26.952314
- Title: Loci-Segmented: Improving Scene Segmentation Learning
- Title(参考訳): Loci-Segmented: シーンセグメンテーション学習の改善
- Authors: Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin
V. Butz
- Abstract要約: Loci-Segmented (Loci-s)は、スロットベースのロケーションとアイデンティティトラッキングアーキテクチャであるLociを拡張する、高度なシーンセグメンテーションニューラルネットワークである。
あらゆる改良により、Loci-sは以前の最良点よりも32%向上したIoUスコアをMOVi-Eで達成した。
- 参考スコア(独自算出の注目度): 4.293591000527724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slot-oriented processing approaches for compositional scene representation
have recently undergone a tremendous development. We present Loci-Segmented
(Loci-s), an advanced scene segmentation neural network that extends the
slot-based location and identity tracking architecture Loci (Traub et al., ICLR
2023). The main advancements are (i) the addition of a pre-trained dynamic
background module; (ii) a hyper-convolution encoder module, which enables
object-focused bottom-up processing; and (iii) a cascaded decoder module, which
successively generates object masks, masked depth maps, and masked,
depth-map-informed RGB reconstructions. The background module features the
learning of both a foreground identifying module and a background re-generator.
We further improve performance via (a) the integration of depth information as
well as improved slot assignments via (b) slot-location-entity regularization
and (b) a prior segmentation network. Even without these latter improvements,
the results reveal superior segmentation performance in the MOVi datasets and
in another established dataset collection. With all improvements, Loci-s
achieves a 32% better intersection over union (IoU) score in MOVi-E than the
previous best. We furthermore show that Loci-s generates well-interpretable
latent representations. We believe that these representations may serve as a
foundation-model-like interpretable basis for solving downstream tasks, such as
grounding language and context- and goal-conditioned event processing.
- Abstract(参考訳): 合成シーン表現のためのスロット指向処理アプローチは近年,大きな発展を遂げている。
Loci-Segmented(Loci-s)は、スロットベースの位置とアイデンティティ追跡アーキテクチャであるLoci(Traub et al., ICLR 2023)を拡張した、高度なシーンセグメンテーションニューラルネットワークである。
主な進歩は
(i)事前訓練された動的背景モジュールの追加
(ii)オブジェクト中心のボトムアップ処理を可能にするハイパー畳み込みエンコーダモジュール
(iii)カスケードデコーダモジュールは,被写体マスク,被写体深度マップ,被写体深度マップインフォームドrgb再構成を順次生成する。
背景モジュールは、前景識別モジュールと背景再生成モジュールの両方の学習機能を備えている。
パフォーマンスをさらに向上させ
(a)奥行き情報の統合及びスロット割り当ての改善
(b)スロット位置エンタリティ正則化及び
(b)事前セグメンテーションネットワーク。
後者の改良がなくても、moviデータセットと他の確立されたデータセットのセグメンテーション性能が優れていることが分かる。
全ての改良により、loci-sは以前のベストよりもユニオン(iou)のスコアよりも32%優れた交点を達成している。
さらに、Loci-sがよく解釈可能な潜在表現を生成することを示す。
これらの表現は、基礎言語やコンテキストや目標条件のイベント処理といった下流タスクを解決するための基礎モデルのような解釈可能な基盤として機能すると考えています。
関連論文リスト
- Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation [0.9208007322096532]
スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。
既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ストローク間の時間的順序が失われる。
シーンスケッチセマンティックセマンティックセグメンテーションのためのCAVT(Class-Agnostic-Temporal Network)を提案する。
論文 参考訳(メタデータ) (2024-09-30T22:34:29Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。