論文の概要: Loci-Segmented: Improving Scene Segmentation Learning
- arxiv url: http://arxiv.org/abs/2310.10410v2
- Date: Wed, 13 Dec 2023 15:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:15:46.344057
- Title: Loci-Segmented: Improving Scene Segmentation Learning
- Title(参考訳): Loci-Segmented: シーンセグメンテーション学習の改善
- Authors: Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin
V. Butz
- Abstract要約: Loci-Segmented (Loci-s) はスロットベースの位置追跡アーキテクチャである。
スロット位置-エンタリティ正規化機構と事前セグメンテーションネットワークにより自動スロット割り当てを改善する。
Loci-sは、多目的ビデオデータセットMOVi-Eにおいて、IoU(Universal over Union)スコアに対する最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 4.293591000527724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Slot-oriented approaches for compositional scene segmentation from images and
videos still depend on provided background information or slot assignments. We
present Loci-Segmented (Loci-s) building on the slot-based location and
identity tracking architecture Loci (Traub et al., ICLR 2023). Loci-s enables
dynamic (i) background processing by means of a foreground identifying module
and a background re-generator; (ii) top-down modified object-focused bottom-up
processing; and (iii) depth estimate generation. We also improve automatic slot
assignment via a slot-location-entity regularization mechanism and a prior
segmentation network. The results reveal superior video decomposition
performance in the MOVi datasets and in another established dataset collection
targeting scene segmentation. Loci-s outperforms the state-of-the-art with
respect to the intersection over union (IoU) score in the multi-object video
dataset MOVi-E by a large margin and even without supervised slot assignments
and without the provision of background information. We furthermore show that
Loci-s generates well-interpretable latent representations. These
representations may serve as a foundation-model-like interpretable basis for
solving downstream tasks, such as grounding language, forming compositional
rules, or solving one-shot reinforcement learning tasks.
- Abstract(参考訳): 画像やビデオからの合成シーンセグメンテーションのためのスロット指向のアプローチは、提供された背景情報やスロット割り当てに依存している。
スロットベースの位置情報とID追跡アーキテクチャであるLoci(Traub et al., ICLR 2023)をベースとしたLoci-Segmented(Loci-s)アーキテクチャを提案する。
Loci-sは動的を可能にする
(i)前景識別モジュール及び背景再生成装置による背景処理
(ii)トップダウン修正オブジェクト指向ボトムアップ処理、
(iii)深さ推定生成。
また、スロット位置エンタリティ正規化機構と事前セグメンテーションネットワークにより、自動スロット割り当てを改善する。
この結果から,MOViデータセットと,シーンセグメンテーションをターゲットとした他のデータセットコレクションにおいて,優れた映像分解性能が得られた。
loci-sは、マルチオブジェクトビデオデータセットmovi-eのintersection over union(iou)スコアに対して、スロット割り当てを監督することなく、背景情報の提供なしにも、最先端の技術を上回る。
さらに、Loci-sがよく解釈可能な潜在表現を生成することを示す。
これらの表現は、基底言語、構成規則の形成、一発強化学習タスクの解決といった下流タスクを解決するための基礎モデルのような解釈可能な基盤として機能する。
関連論文リスト
- Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation [0.9208007322096532]
スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。
既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ストローク間の時間的順序が失われる。
シーンスケッチセマンティックセマンティックセグメンテーションのためのCAVT(Class-Agnostic-Temporal Network)を提案する。
論文 参考訳(メタデータ) (2024-09-30T22:34:29Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。