Fugu-MT 論文翻訳(概要): Object-Centric Scene Representations using Active Inference

論文の概要: Object-Centric Scene Representations using Active Inference

arxiv url: http://arxiv.org/abs/2302.03288v1
Date: Tue, 7 Feb 2023 06:45:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 17:08:19.735704
Title: Object-Centric Scene Representations using Active Inference
Title（参考訳）: アクティブ推論を用いたオブジェクト中心のシーン表現
Authors: Toon Van de Maele, Tim Verbelen, Pietro Mazzaglia, Stefano Ferraro, Bart Dhoedt
Abstract要約: シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
参考スコア（独自算出の注目度）: 4.298360054690217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Representing a scene and its constituent objects from raw sensory data is a core ability for enabling robots to interact with their environment. In this paper, we propose a novel approach for scene understanding, leveraging a hierarchical object-centric generative model that enables an agent to infer object category and pose in an allocentric reference frame using active inference, a neuro-inspired framework for action and perception. For evaluating the behavior of an active vision agent, we also propose a new benchmark where, given a target viewpoint of a particular object, the agent needs to find the best matching viewpoint given a workspace with randomly positioned objects in 3D. We demonstrate that our active inference agent is able to balance epistemic foraging and goal-driven behavior, and outperforms both supervised and reinforcement learning baselines by a large margin.
Abstract（参考訳）: シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。本稿では,行動と知覚のためのニューロインスパイアフレームワークであるactive inferenceを用いて,エージェントが対象のカテゴリを推論し,アロセントリックな参照フレームでポーズを取ることを可能にする階層的オブジェクト中心生成モデルを用いて,シーン理解のための新しいアプローチを提案する。また,アクティブな視覚エージェントの動作を評価するために,特定の対象物に対する対象視点を考慮し,ランダムに位置付けられたオブジェクトを3次元に配置したワークスペースに対して最適な視点を求める必要がある。我々は,我々の活動的推論エージェントが,食欲不振と目標駆動行動のバランスを保ち,教師付き学習ベースラインと強化学習ベースラインの両方を大きなマージンで上回ることを示す。

関連論文リスト

Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文参考訳（メタデータ） (2025-05-27T18:09:02Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。同時に1つのステージで検出と相互作用の推論を行う。我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文参考訳（メタデータ） (2024-04-18T05:06:12Z)
Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文参考訳（メタデータ） (2023-10-31T22:54:31Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Learning Geometric Representations of Objects via Interaction [25.383613570119266]
エージェントとエージェントが相互作用する外部オブジェクトを含むシーンの観察から表現を学習する問題に対処する。本稿では,任意の自然の非構造化観測からエージェントとオブジェクトの物理的空間における位置を抽出する表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-11T09:45:22Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Bi-directional Object-context Prioritization Learning for Saliency Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文参考訳（メタデータ） (2022-03-17T16:16:03Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
SORNet: Spatial Object-Centric Representations for Sequential Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文参考訳（メタデータ） (2021-09-08T19:36:29Z)
Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文参考訳（メタデータ） (2020-10-28T19:27:26Z)
A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文参考訳（メタデータ） (2020-04-18T15:34:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。