論文の概要: Towards Embodied Scene Description
- arxiv url: http://arxiv.org/abs/2004.14638v2
- Date: Thu, 7 May 2020 09:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 05:26:46.042197
- Title: Towards Embodied Scene Description
- Title(参考訳): エンボディードシーンの解説に向けて
- Authors: Sinan Tan, Huaping Liu, Di Guo, Xinyu Zhang, Fuchun Sun
- Abstract要約: 身体は知的エージェント(創造物やロボット)にとって重要な特徴である
本研究では,シーン記述タスクの環境に最適な視点を見出すために,エージェントの実施能力を利用したシーン記述を提案する。
模倣学習と強化学習のパラダイムを備えた学習枠組みを構築し、知的エージェントにそれに対応する感覚運動を生成させる。
- 参考スコア(独自算出の注目度): 36.17224570332247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodiment is an important characteristic for all intelligent agents
(creatures and robots), while existing scene description tasks mainly focus on
analyzing images passively and the semantic understanding of the scenario is
separated from the interaction between the agent and the environment. In this
work, we propose the Embodied Scene Description, which exploits the embodiment
ability of the agent to find an optimal viewpoint in its environment for scene
description tasks. A learning framework with the paradigms of imitation
learning and reinforcement learning is established to teach the intelligent
agent to generate corresponding sensorimotor activities. The proposed framework
is tested on both the AI2Thor dataset and a real world robotic platform
demonstrating the effectiveness and extendability of the developed method.
- Abstract(参考訳): エンボディメントは知的エージェント(創造物やロボット)にとって重要な特徴であり、既存のシーン記述タスクは受動的に画像を分析することに集中しており、シナリオの意味的理解はエージェントと環境の間の相互作用から分離されている。
本研究では,エージェントの具体化能力を利用してシーン記述タスクの環境における最適な視点を求める,具体化シーン記述を提案する。
模倣学習と強化学習のパラダイムを持つ学習フレームワークが確立され、知的エージェントに対応するセンサモジュレータアクティビティを生成することを教える。
提案するフレームワークは,AI2Thorデータセットと実世界のロボットプラットフォームの両方でテストされ,本手法の有効性と拡張性を示す。
関連論文リスト
- Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Knowledge-enhanced Agents for Interactive Text Games [16.055119735473017]
テキストベースのゲームにおいてエージェントの機能的接地を改善するための知識注入フレームワークを提案する。
学習に基づくエージェントに注入するドメイン知識の2つの形態について考察する。
我々のフレームワークは、強化学習エージェントと言語モデルエージェントの2つの代表的なモデルクラスをサポートしている。
論文 参考訳(メタデータ) (2023-05-08T23:31:39Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - A Dynamic Data Driven Approach for Explainable Scene Understanding [0.0]
シーン理解はコンピュータビジョンの領域において重要なトピックである。
我々は、シーンの活発な説明駆動的理解と分類について考察する。
我々のフレームワークはACUMEN: Active Classification and Understanding Method by Explanation-driven Networksである。
論文 参考訳(メタデータ) (2022-06-18T02:41:51Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。