論文の概要: Embodied Agents for Efficient Exploration and Smart Scene Description
- arxiv url: http://arxiv.org/abs/2301.07150v1
- Date: Tue, 17 Jan 2023 19:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:32:09.637258
- Title: Embodied Agents for Efficient Exploration and Smart Scene Description
- Title(参考訳): 効率的な探索とスマートシーン記述のためのエンボディードエージェント
- Authors: Roberto Bigazzi, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi,
Rita Cucchiara
- Abstract要約: 我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
- 参考スコア(独自算出の注目度): 47.82947878753809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of embodied agents that can communicate with humans in
natural language has gained increasing interest over the last years, as it
facilitates the diffusion of robotic platforms in human-populated environments.
As a step towards this objective, in this work, we tackle a setting for visual
navigation in which an autonomous agent needs to explore and map an unseen
indoor environment while portraying interesting scenes with natural language
descriptions. To this end, we propose and evaluate an approach that combines
recent advances in visual robotic exploration and image captioning on images
generated through agent-environment interaction. Our approach can generate
smart scene descriptions that maximize semantic knowledge of the environment
and avoid repetitions. Further, such descriptions offer user-understandable
insights into the robot's representation of the environment by highlighting the
prominent objects and the correlation between them as encountered during the
exploration. To quantitatively assess the performance of the proposed approach,
we also devise a specific score that takes into account both exploration and
description skills. The experiments carried out on both photorealistic
simulated environments and real-world ones demonstrate that our approach can
effectively describe the robot's point of view during exploration, improving
the human-friendly interpretability of its observations.
- Abstract(参考訳): 自然言語で人間とコミュニケーションできるエンボディエージェントの開発は、人間の人口の多い環境におけるロボットプラットフォームの拡散を促進するため、ここ数年で関心が高まっている。
この目的に向けて、本研究では、自律エージェントが見えない屋内環境を探索し、マップし、興味深いシーンを自然言語による記述で表現する必要がある視覚ナビゲーションの設定に取り組む。
本研究では,エージェントと環境の相互作用によって生成する画像の視覚ロボット探索とキャプションの最近の進歩を組み合わせる手法を提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートシーン記述を生成する。
さらに、これらの記述は、探査中に遭遇した顕著な物体とそれら間の相関を強調することにより、ロボットの環境表現に対するユーザ理解可能な洞察を提供する。
提案手法の性能を定量的に評価するために,探索スキルと説明スキルの両方を考慮した特定のスコアを考案する。
実世界とフォトリアリスティックシミュレート環境の両方で行った実験により,本手法は探索中にロボットの視点を効果的に表現し,その観察の人間フレンドリーな解釈性を向上させることができることを示した。
関連論文リスト
- Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - Robot Active Neural Sensing and Planning in Unknown Cluttered
Environments [0.0]
未知の乱雑な環境でのアクティブなセンシングと計画は、ホームサービス、探索と救助、狭い通行検査、医療支援を提供するロボットにとって、オープンな課題である。
本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。
我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要なロボットの相互作用を避けるためにオブジェクト形状推論を行う。
論文 参考訳(メタデータ) (2022-08-23T16:56:54Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Spatial Imagination With Semantic Cognition for Mobile Robots [1.933681537640272]
本稿では,モバイルロボットが意味認識に基づく空間的イマジネーションを行うための学習に基づくアルゴリズムを提案する。
写真リアルなシミュレーション環境であるハビタットをトレーニングや評価に活用しています。
この手法が意味マッピングの効率と正確性を向上させることが判明した。
論文 参考訳(メタデータ) (2021-04-08T09:44:49Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Towards Embodied Scene Description [36.17224570332247]
身体は知的エージェント(創造物やロボット)にとって重要な特徴である
本研究では,シーン記述タスクの環境に最適な視点を見出すために,エージェントの実施能力を利用したシーン記述を提案する。
模倣学習と強化学習のパラダイムを備えた学習枠組みを構築し、知的エージェントにそれに対応する感覚運動を生成させる。
論文 参考訳(メタデータ) (2020-04-30T08:50:25Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。