論文の概要: Towards a Framework for Visual Intelligence in Service Robotics:
Epistemic Requirements and Gap Analysis
- arxiv url: http://arxiv.org/abs/2003.06171v1
- Date: Fri, 13 Mar 2020 09:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:24:06.876461
- Title: Towards a Framework for Visual Intelligence in Service Robotics:
Epistemic Requirements and Gap Analysis
- Title(参考訳): サービスロボティクスにおけるビジュアルインテリジェンスの枠組みに向けて--認識論的要求とギャップ分析
- Authors: Agnese Chiatti, Enrico Motta, Enrico Daga
- Abstract要約: サービスロボットが必要とする重要な能力は、ビジョンシステム、コンポーネントの推論、背景知識を使って環境を理解する能力である。
文献では、人間のような視覚知能のための既存のフレームワークを使用し、現実のロボットシナリオにおけるオブジェクト認識の試行から生じるエラーに基づいて、ボトムアップから読み上げます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key capability required by service robots operating in real-world, dynamic
environments is that of Visual Intelligence, i.e., the ability to use their
vision system, reasoning components and background knowledge to make sense of
their environment. In this paper, we analyze the epistemic requirements for
Visual Intelligence, both in a top-down fashion, using existing frameworks for
human-like Visual Intelligence in the literature, and from the bottom up, based
on the errors emerging from object recognition trials in a real-world robotic
scenario. Finally, we use these requirements to evaluate current knowledge
bases for Service Robotics and to identify gaps in the support they provide for
Visual Intelligence. These gaps provide the basis of a research agenda for
developing more effective knowledge representations for Visual Intelligence.
- Abstract(参考訳): 実世界の動的環境で動作するサービスロボットが必要とする重要な能力は、視覚情報、すなわち視覚システム、推論コンポーネント、背景知識を使用して環境を理解する能力である。
本稿では、文献における人間のようなビジュアルインテリジェンスのための既存のフレームワークを用いたトップダウン方式と、現実世界のロボットシナリオにおける物体認識試験から生じるエラーに基づいて、ビジュアルインテリジェンスに対する認識要求を分析する。
最後に、サービスロボティクスの現在の知識ベースを評価し、視覚知性に対するサポートのギャップを特定するために、これらの要件を使用します。
これらのギャップは、ビジュアルインテリジェンスのためのより効果的な知識表現を開発するための研究課題の基礎を提供する。
関連論文リスト
- Visual Knowledge in the Big Model Era: Retrospect and Prospect [63.282425615863]
視覚知識は、視覚概念とその関係を簡潔で包括的で解釈可能な方法でカプセル化できる新しい知識表現である。
視覚世界に関する知識は、人間の認知と知性にとって欠かせない要素として認識されているため、視覚知識は、機械知性を確立する上で重要な役割を担っていると考えられる。
論文 参考訳(メタデータ) (2024-04-05T07:31:24Z) - Vision-Language Navigation with Embodied Intelligence: A Survey [19.049590467248255]
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
論文 参考訳(メタデータ) (2024-02-22T05:45:17Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer
Learning for Telepresence Robotics [124.08684545010664]
画像からのシーングラフ生成は、ロボット工学のようなアプリケーションに非常に関心を持つタスクである。
オントロジー誘導シーングラフ生成(OG-SGG)と呼ばれるフレームワークの初期近似を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:23:15Z) - Commonsense Spatial Reasoning for Visually Intelligent Agents [0.8029049649310213]
実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。
提案するフレームワークは,ロボットの視点やオブジェクト指向のバリエーションに頑健である。
本稿では,このフレームワークを具体的な空間データベースに実装する方法について述べる。
論文 参考訳(メタデータ) (2021-04-01T10:43:50Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Fit to Measure: Reasoning about Sizes for Robust Object Recognition [0.5352699766206808]
本稿では,MLに基づくアーキテクチャにおいて,オブジェクトサイズに関する知識を統合するアプローチを提案する。
実世界のロボットシナリオにおける我々の実験は、この組み合わせによって、最先端の機械学習手法よりも大きなパフォーマンス向上が期待できることを示している。
論文 参考訳(メタデータ) (2020-10-27T13:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。