論文の概要: Disentangling Shape and Pose for Object-Centric Deep Active Inference
Models
- arxiv url: http://arxiv.org/abs/2209.09097v1
- Date: Fri, 16 Sep 2022 12:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:57:42.978541
- Title: Disentangling Shape and Pose for Object-Centric Deep Active Inference
Models
- Title(参考訳): 物体中心型深部能動推論モデルにおける絡み合い形状とポーズ
- Authors: Stefano Ferraro, Toon Van de Maele, Pietro Mazzaglia, Tim Verbelen and
Bart Dhoedt
- Abstract要約: 本稿では,3次元オブジェクト表現の問題点を考察し,ShapeNetデータセットの異なるインスタンスに着目した。
深層ニューラルネットワークを用いて各因子の表現を学習しながら,対象の形状,ポーズ,カテゴリを分解するモデルを提案する。
- 参考スコア(独自算出の注目度): 4.298360054690217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active inference is a first principles approach for understanding the brain
in particular, and sentient agents in general, with the single imperative of
minimizing free energy. As such, it provides a computational account for
modelling artificial intelligent agents, by defining the agent's generative
model and inferring the model parameters, actions and hidden state beliefs.
However, the exact specification of the generative model and the hidden state
space structure is left to the experimenter, whose design choices influence the
resulting behaviour of the agent. Recently, deep learning methods have been
proposed to learn a hidden state space structure purely from data, alleviating
the experimenter from this tedious design task, but resulting in an entangled,
non-interpreteable state space. In this paper, we hypothesize that such a
learnt, entangled state space does not necessarily yield the best model in
terms of free energy, and that enforcing different factors in the state space
can yield a lower model complexity. In particular, we consider the problem of
3D object representation, and focus on different instances of the ShapeNet
dataset. We propose a model that factorizes object shape, pose and category,
while still learning a representation for each factor using a deep neural
network. We show that models, with best disentanglement properties, perform
best when adopted by an active agent in reaching preferred observations.
- Abstract(参考訳): 能動的推論は、特に脳を理解するための最初の原理的アプローチであり、一般に感覚剤であり、自由エネルギーを最小化する唯一の手段である。
エージェントの生成モデルを定義し、モデルのパラメータ、アクション、隠れた状態の信念を推論することで、人工知能エージェントのモデリングのための計算的な説明を提供する。
しかし、生成モデルと隠れた状態空間構造の正確な仕様は実験者に委ねられ、その設計選択はエージェントの振る舞いに影響を及ぼす。
近年,データから隠れた状態空間構造を学習するための深層学習手法が提案されている。
本稿では,そのような学習された絡み合った状態空間が必ずしも自由エネルギーの観点で最高のモデルをもたらすとは限らないこと,状態空間に異なる要因を課すことが,より低いモデル複雑性をもたらすことを仮定する。
特に,3次元オブジェクト表現の問題について考察し,ShapeNetデータセットの異なるインスタンスに着目した。
本稿では,深層ニューラルネットワークを用いて各因子の表現を学習しながら,物体形状,ポーズ,カテゴリを分解するモデルを提案する。
有効エージェントが好む観測値に到達する際には, 解離特性の優れたモデルが最適であることを示す。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Interpreting Black-box Machine Learning Models for High Dimensional
Datasets [40.09157165704895]
我々は、高次元データセット上でブラックボックスモデルをトレーニングし、その分類が行われる埋め込みを学習する。
次に、トップk特徴空間上の解釈可能な代理モデルを用いてブラックボックスモデルの挙動を近似する。
我々のアプローチは、異なるデータセットでテストした場合、TabNetやXGboostのような最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-29T07:36:17Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - imGHUM: Implicit Generative Models of 3D Human Shape and Articulated
Pose [42.4185273307021]
人間の3次元形状とポーズの合成モデルImGHUMについて述べる。
人間の全身をゼロレベルの関数として暗黙的にモデル化し、明示的なテンプレートメッシュを使用しない。
論文 参考訳(メタデータ) (2021-08-24T17:08:28Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Intrinsic Relationship Reasoning for Small Object Detection [44.68289739449486]
画像やビデオの小さなオブジェクトは通常、独立した個人ではない。その代わりに、意味的および空間的レイアウトの関係を多かれ少なかれ提示する。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T06:03:05Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。