論文の概要: Top-Down Guidance for Learning Object-Centric Representations
- arxiv url: http://arxiv.org/abs/2405.10598v3
- Date: Sun, 24 Aug 2025 12:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:44.974533
- Title: Top-Down Guidance for Learning Object-Centric Representations
- Title(参考訳): オブジェクト中心表現学習のためのトップダウンガイダンス
- Authors: Junhong Zou, Xiangyu Zhu, Zhaoxiang Zhang, Zhen Lei,
- Abstract要約: Top-Down Guided Network (TDGNet)は、オブジェクト中心の表現を改善するためのトップダウンパスである。
TDGNetは、様々な複雑さを持つ複数のデータセットにおいて、現在のオブジェクト中心モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 30.06924788022504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans' innate ability to decompose scenes into objects allows for efficient understanding, predicting, and planning. In light of this, Object-Centric Learning (OCL) attempts to endow networks with similar capabilities, learning to represent scenes with the composition of objects. However, existing OCL models only learn through reconstructing the input images, which does not assist the model in distinguishing objects, resulting in suboptimal object-centric representations. This flaw limits current object-centric models to relatively simple downstream tasks. To address this issue, we draw on humans' top-down vision pathway and propose Top-Down Guided Network (TDGNet), which includes a top-down pathway to improve object-centric representations. During training, the top-down pathway constructs guidance with high-level object-centric representations to optimize low-level grid features output by the backbone. While during inference, it refines object-centric representations by detecting and solving conflicts between low- and high-level features. We show that TDGNet outperforms current object-centric models on multiple datasets of varying complexity. In addition, we expand the downstream task scope of object-centric representations by applying TDGNet to the field of robotics, validating its effectiveness in downstream tasks including video prediction and visual planning.
- Abstract(参考訳): 人間が自然にシーンをオブジェクトに分解する能力は、効率的な理解、予測、計画を可能にします。
これを踏まえて、OCL(Object-Centric Learning)は、同じような能力を持つネットワークを育み、オブジェクトの合成でシーンを表現することを学習する。
しかし、既存のOCLモデルは入力画像の再構成によってのみ学習し、オブジェクトの識別に役立ちません。
この欠陥は、現在のオブジェクト中心のモデルを比較的単純な下流タスクに制限する。
この問題に対処するために、私たちは、トップダウンの視覚経路と、オブジェクト中心の表現を改善するトップダウンの経路を含むトップダウンガイドネットワーク(TDGNet)を提案する。
トレーニング中、トップダウンパスは、バックボーンによって出力される低レベルグリッド機能を最適化するために、高レベルなオブジェクト中心表現でガイダンスを構築する。
推論中は、低レベルの特徴と高レベルの特徴の衝突を検出し、解決することで、オブジェクト中心の表現を洗練する。
TDGNetは、様々な複雑さを持つ複数のデータセットにおいて、現在のオブジェクト中心モデルよりも優れていることを示す。
さらに、ロボット工学の分野にTDGNetを適用し、映像予測や視覚計画を含む下流タスクの有効性を検証することで、オブジェクト中心表現の下流タスク範囲を拡大する。
関連論文リスト
- Shortcut Learning Susceptibility in Vision Classifiers [3.004632712148892]
ショートカット学習は、機械学習モデルが意味のある特徴をキャプチャする代わりに、データの急激な相関を利用する場所である。
この現象は、視覚、自然言語処理、音声認識など、さまざまな機械学習アプリケーションで広く利用されている。
クラスラベルと位置相関するデータセットに意図的にショートカットを導入することで,これらのアーキテクチャを体系的に評価する。
論文 参考訳(メタデータ) (2025-02-13T10:25:52Z) - Bootstrapping Top-down Information for Self-modulating Slot Attention [29.82550058869251]
トップダウン経路を組み込んだ新しいOCLフレームワークを提案する。
この経路は個々のオブジェクトのセマンティクスをブートストラップし、モデルを変更してこれらのセマンティクスに関連する特徴を優先順位付けする。
我々のフレームワークは、複数の合成および実世界のオブジェクト発見ベンチマークにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-04T05:00:49Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - See Through Their Minds: Learning Transferable Neural Representation from Cross-Subject fMRI [32.40827290083577]
機能的磁気共鳴イメージング(fMRI)からの視覚内容の解読は、人間の視覚系を照らすのに役立つ。
従来のアプローチは主に、トレーニングサンプルサイズに敏感な、主題固有のモデルを採用していた。
本稿では,fMRIデータを統合表現にマッピングするための,サブジェクト固有の浅層アダプタを提案する。
トレーニング中,マルチモーダル脳復号における視覚的・テキスト的監督の両面を活用する。
論文 参考訳(メタデータ) (2024-03-11T01:18:49Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Multi-Object Navigation with dynamically learned neural implicit
representations [10.182418917501064]
本稿では,各エピソードにおいて動的に学習される2つのニューラル暗示表現を用いてニューラルネットワークを構築することを提案する。
マルチオブジェクトナビゲーションにおけるエージェントの評価を行い、暗黙的表現をメモリソースとして使用する場合の影響を高く示す。
論文 参考訳(メタデータ) (2022-10-11T04:06:34Z) - Learning Deep Representations via Contrastive Learning for Instance
Retrieval [11.736450745549792]
本稿では、インスタンス識別に基づくコントラスト学習(CL)を用いて、この問題に取り組むための最初の試みを行う。
本研究では、事前学習されたCLモデルと微調整されたCLモデルから識別表現を導出する能力を探求することにより、この問題に対処する。
論文 参考訳(メタデータ) (2022-09-28T04:36:34Z) - Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文 参考訳(メタデータ) (2022-02-15T02:14:05Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。