論文の概要: Object-based active inference
- arxiv url: http://arxiv.org/abs/2209.01258v1
- Date: Fri, 2 Sep 2022 20:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:43:45.795855
- Title: Object-based active inference
- Title(参考訳): オブジェクトベースアクティブ推論
- Authors: Ruben S. van Bergen and Pablo L. Lanillos
- Abstract要約: 本稿では,最近のディープオブジェクトベースニューラルネットワークを用いたオブジェクトベースアクティブ推論(OBAI)を紹介する。
OBAIは、異なる変分信念を持つ異なるオブジェクトを表し、対応するオブジェクトスロットに入力をルーティングするために選択的注意を使用する。
OBAIは、映像入力からアクション摂動オブジェクトを正しく分割し、これらのオブジェクトを任意の目標に向けて操作することを学ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The world consists of objects: distinct entities possessing independent
properties and dynamics. For agents to interact with the world intelligently,
they must translate sensory inputs into the bound-together features that
describe each object. These object-based representations form a natural basis
for planning behavior. Active inference (AIF) is an influential unifying
account of perception and action, but existing AIF models have not leveraged
this important inductive bias. To remedy this, we introduce 'object-based
active inference' (OBAI), marrying AIF with recent deep object-based neural
networks. OBAI represents distinct objects with separate variational beliefs,
and uses selective attention to route inputs to their corresponding object
slots. Object representations are endowed with independent action-based
dynamics. The dynamics and generative model are learned from experience with a
simple environment (active multi-dSprites). We show that OBAI learns to
correctly segment the action-perturbed objects from video input, and to
manipulate these objects towards arbitrary goals.
- Abstract(参考訳): 世界は対象から成り、独立した性質とダイナミクスを持つ別個の実体である。
エージェントが世界とインテリジェントに対話するためには、各オブジェクトを記述する有界な特徴に感覚入力を変換する必要がある。
これらのオブジェクトベースの表現は、計画行動の自然な基盤を形成する。
アクティブ推論(AIF)は、知覚と行動の統一に影響を及ぼすが、既存のAIFモデルは、この重要な帰納バイアスを生かしていない。
これを解決するために、最近のディープオブジェクトベースニューラルネットワークとAIFを結合する「オブジェクトベースアクティブ推論」(OBAI)を導入する。
OBAIは、異なる変分信念を持つ異なるオブジェクトを表し、対応するオブジェクトスロットに入力をルーティングするために選択的注意を使用する。
オブジェクト表現には独立したアクションベースのダイナミクスが与えられている。
ダイナミクスと生成モデルは、単純な環境(アクティブなマルチdSprites)の経験から学習される。
OBAIは、映像入力からアクション摂動オブジェクトを正しく分割し、これらのオブジェクトを任意の目標に向けて操作することを学ぶ。
関連論文リスト
- Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Plug and Play, Model-Based Reinforcement Learning [60.813074750879615]
我々は、既知のオブジェクトクラスから新しいオブジェクトをゼロショットで統合できるオブジェクトベースの表現を導入する。
これは、グローバル遷移力学を局所遷移関数の和として表現することで達成される。
実験により, 様々なセットアップにおいて, サンプル効率が達成できることが示された。
論文 参考訳(メタデータ) (2021-08-20T01:20:15Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。