論文の概要: Disentangling What and Where for 3D Object-Centric Representations
Through Active Inference
- arxiv url: http://arxiv.org/abs/2108.11762v1
- Date: Thu, 26 Aug 2021 12:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 20:36:19.324592
- Title: Disentangling What and Where for 3D Object-Centric Representations
Through Active Inference
- Title(参考訳): アクティブ推論による3次元オブジェクト中心表現の在り方
- Authors: Toon Van de Maele, Tim Verbelen, Ozan Catal and Bart Dhoedt
- Abstract要約: 本稿では、時間とともに新しいオブジェクトカテゴリを学習できるアクティブ推論エージェントを提案する。
我々のエージェントは、教師なしの方法で、多くのオブジェクトカテゴリの表現を学習できることを示す。
我々は,エージェントが画素ベースのレンダリングから与えられたポーズでオブジェクトを検索できるエンドツーエンドでシステムを検証する。
- 参考スコア(独自算出の注目度): 4.088019409160893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although modern object detection and classification models achieve high
accuracy, these are typically constrained in advance on a fixed train set and
are therefore not flexible to deal with novel, unseen object categories.
Moreover, these models most often operate on a single frame, which may yield
incorrect classifications in case of ambiguous viewpoints. In this paper, we
propose an active inference agent that actively gathers evidence for object
classifications, and can learn novel object categories over time. Drawing
inspiration from the human brain, we build object-centric generative models
composed of two information streams, a what- and a where-stream. The
what-stream predicts whether the observed object belongs to a specific
category, while the where-stream is responsible for representing the object in
its internal 3D reference frame. We show that our agent (i) is able to learn
representations for many object categories in an unsupervised way, (ii)
achieves state-of-the-art classification accuracies, actively resolving
ambiguity when required and (iii) identifies novel object categories.
Furthermore, we validate our system in an end-to-end fashion where the agent is
able to search for an object at a given pose from a pixel-based rendering. We
believe that this is a first step towards building modular, intelligent systems
that can be used for a wide range of tasks involving three dimensional objects.
- Abstract(参考訳): 現代の物体検出と分類モデルは高い精度を達成するが、これらは固定された列車セットに予め制約されているため、新しい未知の物体カテゴリーを扱うには柔軟ではない。
さらに、これらのモデルは、しばしば単一のフレーム上で動作し、曖昧な視点の場合に誤った分類をもたらす可能性がある。
本稿では、オブジェクト分類の証拠を積極的に収集し、時間とともに新しいオブジェクト分類を学習できるアクティブ推論エージェントを提案する。
人間の脳からインスピレーションを得て、2つの情報ストリーム(what-とwhere-stream)からなるオブジェクト中心の生成モデルを構築します。
what-streamは観測されたオブジェクトが特定のカテゴリに属しているかどうかを予測し、where-streamは内部3d参照フレーム内のオブジェクトを表現している。
エージェント(i)は、教師なしの方法で多くの対象カテゴリの表現を学習でき、(ii)最先端の分類精度を実現し、必要に応じて曖昧さを積極的に解決し、(iii)新しい対象カテゴリを識別できることを示す。
さらに,エージェントが画素ベースのレンダリングから所定のポーズでオブジェクトを検索できるエンド・ツー・エンド方式でシステムを検証する。
これは、三次元オブジェクトを含む幅広いタスクに使用できるモジュール式でインテリジェントなシステムを構築するための第一歩だと考えています。
関連論文リスト
- CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-02-24T05:31:53Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - You Only Look at One: Category-Level Object Representations for Pose
Estimation From a Single Example [26.866356430469757]
所望のカテゴリから1つのオブジェクトだけを検査してカテゴリレベルのポーズ推定を行う手法を提案する。
本稿では,RGBDセンサを搭載したロボットマニピュレータを用いて,新しい物体のオンライン6次元ポーズ推定を行う。
論文 参考訳(メタデータ) (2023-05-22T01:32:24Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Detecting and Accommodating Novel Types and Concepts in an Embodied
Simulation Environment [4.507860128918788]
本稿では,AIシステムにおける2種類のメタ認知タスクの手法を提案する。
ニューラルな分類モデルを拡張して、新しい分類対象を適応させ、新しい分類対象を既知のクラスとして誤分類する代わりに、新しい分類対象がいつ観測されるかを認識する。
本稿では,新しいカテゴリや概念の導入を迅速に行うための一連の実験,新しい型検出,対話型システムにおける2つの統合アーキテクチャについて述べる。
論文 参考訳(メタデータ) (2022-11-08T20:55:28Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Disassembling Object Representations without Labels [75.2215716328001]
本研究では,オブジェクト表現を分解する新しい表現学習タスクについて検討する。
分解は、学習した表現におけるカテゴリ固有のモジュラリティを可能にする。
我々は、非教師なし分解オブジェクト表現(UDOR)という、非教師なしの非教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-03T08:23:09Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。