論文の概要: Loci-Segmented: Improving Scene Segmentation Learning
- arxiv url: http://arxiv.org/abs/2310.10410v3
- Date: Tue, 6 Feb 2024 17:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:03:20.295526
- Title: Loci-Segmented: Improving Scene Segmentation Learning
- Title(参考訳): Loci-Segmented: シーンセグメンテーション学習の改善
- Authors: Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin
V. Butz
- Abstract要約: Loci-Segmentedはシーンを解釈可能な背景とスロットベースのオブジェクトエンコーディングに分割する。
システムのよく解釈可能な合成潜在エンコーディングは、下流タスクの基盤モデルとして機能する。
- 参考スコア(独自算出の注目度): 4.293591000527724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current slot-oriented approaches for compositional scene segmentation from
images and videos rely on provided background information or slot assignments.
We present a segmented location and identity tracking system, Loci-Segmented
(Loci-s), which does not require either of this information. It learns to
dynamically segment scenes into interpretable background and slot-based object
encodings, separating rgb, mask, location, and depth information for each. The
results reveal largely superior video decomposition performance in the MOVi
datasets and in another established dataset collection targeting scene
segmentation. The system's well-interpretable, compositional latent encodings
may serve as a foundation model for downstream tasks.
- Abstract(参考訳): 画像や映像からのシーンセグメンテーションのための現在のスロット指向アプローチは、提供された背景情報やスロット割り当てに依存している。
本稿では,ロシ・セグメンツド(Loci-Segmented, Loci-s)という,これらの情報を必要としないセグメンテーションされた位置情報・ID追跡システムを提案する。
シーンを動的に解釈可能な背景とスロットベースのオブジェクトエンコーディングに分割し、rgb、マスク、位置、深さ情報を分離する。
その結果,MOViデータセットと,シーンセグメンテーションをターゲットとした別のデータセットコレクションにおいて,映像分解性能が大幅に向上したことが明らかとなった。
このシステムのよく解釈可能な合成潜在エンコーディングは、下流タスクの基礎モデルとして機能する。
関連論文リスト
- Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation [0.9208007322096532]
スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。
既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ストローク間の時間的順序が失われる。
シーンスケッチセマンティックセマンティックセグメンテーションのためのCAVT(Class-Agnostic-Temporal Network)を提案する。
論文 参考訳(メタデータ) (2024-09-30T22:34:29Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。
提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-15T02:08:20Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。