論文の概要: Unsupervised Image Decomposition with Phase-Correlation Networks
- arxiv url: http://arxiv.org/abs/2110.03473v2
- Date: Fri, 8 Oct 2021 08:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 11:32:41.024487
- Title: Unsupervised Image Decomposition with Phase-Correlation Networks
- Title(参考訳): 位相相関ネットワークを用いた教師なし画像分解
- Authors: Angel Villar-Corrales and Sven Behnke
- Abstract要約: 位相相関分解ネットワーク(PCDNet)は、シーンをオブジェクトコンポーネントに分解する新しいモデルである。
実験では,PCDNetが非教師対象発見とセグメンテーションの最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 28.502280038100167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to decompose scenes into their object components is a desired
property for autonomous agents, allowing them to reason and act in their
surroundings. Recently, different methods have been proposed to learn
object-centric representations from data in an unsupervised manner. These
methods often rely on latent representations learned by deep neural networks,
hence requiring high computational costs and large amounts of curated data.
Such models are also difficult to interpret. To address these challenges, we
propose the Phase-Correlation Decomposition Network (PCDNet), a novel model
that decomposes a scene into its object components, which are represented as
transformed versions of a set of learned object prototypes. The core building
block in PCDNet is the Phase-Correlation Cell (PC Cell), which exploits the
frequency-domain representation of the images in order to estimate the
transformation between an object prototype and its transformed version in the
image. In our experiments, we show how PCDNet outperforms state-of-the-art
methods for unsupervised object discovery and segmentation on simple benchmark
datasets and on more challenging data, while using a small number of learnable
parameters and being fully interpretable.
- Abstract(参考訳): シーンをオブジェクトコンポーネントに分解する能力は、自律的なエージェントにとって望ましい特性であり、周囲で理屈と行動を可能にする。
近年,データから対象中心表現を教師なしで学習する手法が提案されている。
これらの手法は、ディープニューラルネットワークによって学習される潜在表現に依存することが多いため、高い計算コストと大量のキュレーションデータを必要とする。
このようなモデルは解釈も困難である。
これらの課題に対処するために,学習対象のプロトタイプセットの変換版として表現されたシーンをオブジェクトコンポーネントに分解する新しいモデルPCDNetを提案する。
PCDNetのコアビルディングブロックはPhase-Correlation Cell (PC Cell) であり、オブジェクトのプロトタイプと変換されたバージョンの間の変換を推定するために、画像の周波数領域表現を利用する。
実験では、PCDNetが、少数の学習可能なパラメータを使用し、完全に解釈可能でありながら、単純なベンチマークデータセットやより困難なデータ上で、教師なしのオブジェクト発見とセグメンテーションの最先端手法よりも優れていることを示す。
関連論文リスト
- PEEKABOO: Hiding parts of an image for unsupervised object localization [7.161489957025654]
教師なしの方法でオブジェクトをローカライズすることは、重要な視覚情報がないために大きな課題となる。
教師なしオブジェクトローカライゼーションのための単段階学習フレームワークPEEKABOOを提案する。
キーとなるアイデアは、画像の一部を選択的に隠し、残りの画像情報を活用して、明示的な監督なしにオブジェクトの位置を推測することである。
論文 参考訳(メタデータ) (2024-07-24T20:35:20Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - High-Resolution Vision Transformers for Pixel-Level Identification of
Structural Components and Damage [1.8923948104852863]
視覚変換器とラプラシアピラミッドスケーリングネットワークに基づくセマンティックセグメンテーションネットワークを開発した。
提案手法は,橋梁検査報告画像のデータセットに関する総合的な実験を通じて評価されている。
論文 参考訳(メタデータ) (2023-08-06T03:34:25Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Compositional Convolutional Neural Networks: A Robust and Interpretable
Model for Object Recognition under Occlusion [21.737411464598797]
ブラックボックス深部畳み込みニューラルネットワーク(DCNN)は,部分閉塞に対する頑健性に限界がある。
構成畳み込みニューラルネットワーク(CompositionalNets)に部分ベースモデルとDCNNを統合することで、これらの制限を克服する。
実験により,コンポジションネットは,部分閉塞物体の分類・検出において,非構成対象に比べて大きなマージンで改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-28T08:18:19Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。