論文の概要: Commonsense Spatial Reasoning for Visually Intelligent Agents
- arxiv url: http://arxiv.org/abs/2104.00387v1
- Date: Thu, 1 Apr 2021 10:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 23:53:40.885992
- Title: Commonsense Spatial Reasoning for Visually Intelligent Agents
- Title(参考訳): 視覚知的エージェントのためのコモンセンス空間推論
- Authors: Agnese Chiatti, Gianluca Bardaro, Enrico Motta, Enrico Daga
- Abstract要約: 実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。
提案するフレームワークは,ロボットの視点やオブジェクト指向のバリエーションに頑健である。
本稿では,このフレームワークを具体的な空間データベースに実装する方法について述べる。
- 参考スコア(独自算出の注目度): 0.8029049649310213
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Service robots are expected to reliably make sense of complex, fast-changing
environments. From a cognitive standpoint, they need the appropriate reasoning
capabilities and background knowledge required to exhibit human-like Visual
Intelligence. In particular, our prior work has shown that the ability to
reason about spatial relations between objects in the world is a key
requirement for the development of Visually Intelligent Agents. In this paper,
we present a framework for commonsense spatial reasoning which is tailored to
real-world robotic applications. Differently from prior approaches to
qualitative spatial reasoning, the proposed framework is robust to variations
in the robot's viewpoint and object orientation. The spatial relations in the
proposed framework are also mapped to the types of commonsense predicates used
to describe typical object configurations in English. In addition, we also show
how this formally-defined framework can be implemented in a concrete spatial
database.
- Abstract(参考訳): サービスロボットは、複雑で急速に変化する環境を確実に理解することが期待されている。
認知の観点からは、人間のような視覚知能を示すために必要な適切な推論能力と背景知識が必要である。
特に、我々の先行研究は、世界の物体間の空間的関係を推論する能力は、視覚知的エージェントの開発において重要な要件であることを示した。
本稿では,実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。
質的空間推論に対する従来のアプローチとは異なり、提案された枠組みはロボットの視点とオブジェクト指向のバリエーションに頑健である。
提案フレームワークの空間的関係は、英語の典型的なオブジェクト構成を記述するために使われるコモンセンス述語の種類にマッピングされる。
さらに,この形式的に定義されたフレームワークを具体的な空間データベースに実装する方法を示す。
関連論文リスト
- Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - Towards Ubiquitous Semantic Metaverse: Challenges, Approaches, and
Opportunities [68.03971716740823]
近年,拡張現実(AR)および仮想現実(VR)ユーザーのための没入型サイバーバーチャル体験に革命をもたらすために,ユビキタスセマンティック・メタバースが研究されている。
この調査は、ユビキタスメタバースにおける4つの基本システムコンポーネントの表現とインテリジェンスに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-13T11:14:46Z) - Flexible and Inherently Comprehensible Knowledge Representation for
Data-Efficient Learning and Trustworthy Human-Machine Teaming in
Manufacturing Environments [0.0]
人工知能エージェントの信頼性は、産業生産環境における人間と機械の協調の受容に不可欠である。
我々はエージェントの知識を表現するために、G"ardenforsの認知的にインスピレーションを受けた概念空間フレームワークを利用している。
ファジィカテゴリのメンバシップを決定し、インスタンスを解釈可能に分類するために、シンプルな典型モデルがその上に構築されている。
論文 参考訳(メタデータ) (2023-05-19T11:18:23Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文 参考訳(メタデータ) (2020-12-04T16:27:59Z) - Fit to Measure: Reasoning about Sizes for Robust Object Recognition [0.5352699766206808]
本稿では,MLに基づくアーキテクチャにおいて,オブジェクトサイズに関する知識を統合するアプローチを提案する。
実世界のロボットシナリオにおける我々の実験は、この組み合わせによって、最先端の機械学習手法よりも大きなパフォーマンス向上が期待できることを示している。
論文 参考訳(メタデータ) (2020-10-27T13:54:37Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Towards a Framework for Visual Intelligence in Service Robotics:
Epistemic Requirements and Gap Analysis [0.0]
サービスロボットが必要とする重要な能力は、ビジョンシステム、コンポーネントの推論、背景知識を使って環境を理解する能力である。
文献では、人間のような視覚知能のための既存のフレームワークを使用し、現実のロボットシナリオにおけるオブジェクト認識の試行から生じるエラーに基づいて、ボトムアップから読み上げます。
論文 参考訳(メタデータ) (2020-03-13T09:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。