論文の概要: Towards a Framework for Visual Intelligence in Service Robotics:
Epistemic Requirements and Gap Analysis
- arxiv url: http://arxiv.org/abs/2003.06171v1
- Date: Fri, 13 Mar 2020 09:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:24:06.876461
- Title: Towards a Framework for Visual Intelligence in Service Robotics:
Epistemic Requirements and Gap Analysis
- Title(参考訳): サービスロボティクスにおけるビジュアルインテリジェンスの枠組みに向けて--認識論的要求とギャップ分析
- Authors: Agnese Chiatti, Enrico Motta, Enrico Daga
- Abstract要約: サービスロボットが必要とする重要な能力は、ビジョンシステム、コンポーネントの推論、背景知識を使って環境を理解する能力である。
文献では、人間のような視覚知能のための既存のフレームワークを使用し、現実のロボットシナリオにおけるオブジェクト認識の試行から生じるエラーに基づいて、ボトムアップから読み上げます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key capability required by service robots operating in real-world, dynamic
environments is that of Visual Intelligence, i.e., the ability to use their
vision system, reasoning components and background knowledge to make sense of
their environment. In this paper, we analyze the epistemic requirements for
Visual Intelligence, both in a top-down fashion, using existing frameworks for
human-like Visual Intelligence in the literature, and from the bottom up, based
on the errors emerging from object recognition trials in a real-world robotic
scenario. Finally, we use these requirements to evaluate current knowledge
bases for Service Robotics and to identify gaps in the support they provide for
Visual Intelligence. These gaps provide the basis of a research agenda for
developing more effective knowledge representations for Visual Intelligence.
- Abstract(参考訳): 実世界の動的環境で動作するサービスロボットが必要とする重要な能力は、視覚情報、すなわち視覚システム、推論コンポーネント、背景知識を使用して環境を理解する能力である。
本稿では、文献における人間のようなビジュアルインテリジェンスのための既存のフレームワークを用いたトップダウン方式と、現実世界のロボットシナリオにおける物体認識試験から生じるエラーに基づいて、ビジュアルインテリジェンスに対する認識要求を分析する。
最後に、サービスロボティクスの現在の知識ベースを評価し、視覚知性に対するサポートのギャップを特定するために、これらの要件を使用します。
これらのギャップは、ビジュアルインテリジェンスのためのより効果的な知識表現を開発するための研究課題の基礎を提供する。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Vision-Language Navigation with Embodied Intelligence: A Survey [19.049590467248255]
視覚言語ナビゲーション(VLN)は、インテリジェンスを実現するための重要な研究経路である。
VLNは人工知能、自然言語処理、コンピュータビジョン、ロボット工学を統合している。
本調査は,VLN研究の進捗を体系的にレビューし,VLN研究の方向性を具体的知性で詳述する。
論文 参考訳(メタデータ) (2024-02-22T05:45:17Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Toward General-Purpose Robots via Foundation Models: A Survey and
Meta-Analysis [73.89558418030418]
既存のロボットシステムは、特定のタスクのために設計され、特定のデータセットに基づいて訓練され、特定の環境にデプロイされている。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,我々は,基礎モデルをロボット工学に適用する方法を探究した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Beyond Interpretable Benchmarks: Contextual Learning through Cognitive
and Multimodal Perception [0.0]
この研究は、チューリングテストがコンピュータシステムを人為的に形作る試みであると誤解されていることを主張する。
通訳性に欠けるにもかかわらず、汎用知能の基盤として暗黙の学習を強調している。
論文 参考訳(メタデータ) (2022-12-04T08:30:04Z) - OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer
Learning for Telepresence Robotics [124.08684545010664]
画像からのシーングラフ生成は、ロボット工学のようなアプリケーションに非常に関心を持つタスクである。
オントロジー誘導シーングラフ生成(OG-SGG)と呼ばれるフレームワークの初期近似を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:23:15Z) - Commonsense Spatial Reasoning for Visually Intelligent Agents [0.8029049649310213]
実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。
提案するフレームワークは,ロボットの視点やオブジェクト指向のバリエーションに頑健である。
本稿では,このフレームワークを具体的な空間データベースに実装する方法について述べる。
論文 参考訳(メタデータ) (2021-04-01T10:43:50Z) - Cognitive architecture aided by working-memory for self-supervised
multi-modal humans recognition [54.749127627191655]
人間パートナーを認識する能力は、パーソナライズされた長期的な人間とロボットの相互作用を構築するための重要な社会的スキルです。
ディープラーニングネットワークは最先端の結果を達成し,そのような課題に対処するための適切なツールであることが実証された。
1つの解決策は、ロボットに自己スーパービジョンで直接の感覚データから学習させることである。
論文 参考訳(メタデータ) (2021-03-16T13:50:24Z) - Fit to Measure: Reasoning about Sizes for Robust Object Recognition [0.5352699766206808]
本稿では,MLに基づくアーキテクチャにおいて,オブジェクトサイズに関する知識を統合するアプローチを提案する。
実世界のロボットシナリオにおける我々の実験は、この組み合わせによって、最先端の機械学習手法よりも大きなパフォーマンス向上が期待できることを示している。
論文 参考訳(メタデータ) (2020-10-27T13:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。