Fugu-MT 論文翻訳(概要): Loci-Segmented: Improving Scene Segmentation Learning

論文の概要: Loci-Segmented: Improving Scene Segmentation Learning

arxiv url: http://arxiv.org/abs/2310.10410v3
Date: Tue, 6 Feb 2024 17:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 20:03:20.295526
Title: Loci-Segmented: Improving Scene Segmentation Learning
Title（参考訳）: Loci-Segmented: シーンセグメンテーション学習の改善
Authors: Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin V. Butz
Abstract要約: Loci-Segmentedはシーンを解釈可能な背景とスロットベースのオブジェクトエンコーディングに分割する。システムのよく解釈可能な合成潜在エンコーディングは、下流タスクの基盤モデルとして機能する。
参考スコア（独自算出の注目度）: 4.293591000527724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current slot-oriented approaches for compositional scene segmentation from images and videos rely on provided background information or slot assignments. We present a segmented location and identity tracking system, Loci-Segmented (Loci-s), which does not require either of this information. It learns to dynamically segment scenes into interpretable background and slot-based object encodings, separating rgb, mask, location, and depth information for each. The results reveal largely superior video decomposition performance in the MOVi datasets and in another established dataset collection targeting scene segmentation. The system's well-interpretable, compositional latent encodings may serve as a foundation model for downstream tasks.
Abstract（参考訳）: 画像や映像からのシーンセグメンテーションのための現在のスロット指向アプローチは、提供された背景情報やスロット割り当てに依存している。本稿では,ロシ・セグメンツド(Loci-Segmented, Loci-s)という,これらの情報を必要としないセグメンテーションされた位置情報・ID追跡システムを提案する。シーンを動的に解釈可能な背景とスロットベースのオブジェクトエンコーディングに分割し、rgb、マスク、位置、深さ情報を分離する。その結果,MOViデータセットと,シーンセグメンテーションをターゲットとした別のデータセットコレクションにおいて,映像分解性能が大幅に向上したことが明らかとなった。このシステムのよく解釈可能な合成潜在エンコーディングは、下流タスクの基礎モデルとして機能する。

関連論文リスト

Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation [0.9208007322096532]
スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ストローク間の時間的順序が失われる。シーンスケッチセマンティックセマンティックセグメンテーションのためのCAVT(Class-Agnostic-Temporal Network)を提案する。
論文参考訳（メタデータ） (2024-09-30T22:34:29Z)
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文参考訳（メタデータ） (2023-08-16T17:58:34Z)
Guided Slot Attention for Unsupervised Video Object Segmentation [16.69412563413671]
本研究では,空間構造情報を強化し,より優れた前景分離を実現するためのガイド付きスロットアテンションネットワークを提案する。提案モデルは,2つの一般的なデータセット上での最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-15T02:08:20Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文参考訳（メタデータ） (2022-05-16T17:47:44Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)
A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2020-11-18T02:42:36Z)
A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文参考訳（メタデータ） (2020-04-06T13:58:08Z)
SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文参考訳（メタデータ） (2020-01-24T16:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。