論文の概要: Commonsense Visual Sensemaking for Autonomous Driving: On Generalised
Neurosymbolic Online Abduction Integrating Vision and Semantics
- arxiv url: http://arxiv.org/abs/2012.14359v1
- Date: Mon, 28 Dec 2020 16:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:14:29.371384
- Title: Commonsense Visual Sensemaking for Autonomous Driving: On Generalised
Neurosymbolic Online Abduction Integrating Vision and Semantics
- Title(参考訳): Commonsense Visual Sense Making for autonomous Driving: On Generalized Neurosymbolic Online Abduction Integrating Vision and Semantics
- Authors: Jakob Suchan and Mehul Bhatt and Srikrishna Varadarajan
- Abstract要約: 自律運転の背景において,視覚認識のためのシステム統合視覚とセマンティックスソリューションの必要性と可能性を示す。
解集合プログラミング(ASP)を用いたオンライン視覚感覚形成のための一般的な神経シンボリック手法を体系的に形式化し、完全に実装する。
- 参考スコア(独自算出の注目度): 9.359018642178917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate the need and potential of systematically integrated vision and
semantics solutions for visual sensemaking in the backdrop of autonomous
driving. A general neurosymbolic method for online visual sensemaking using
answer set programming (ASP) is systematically formalised and fully
implemented. The method integrates state of the art in visual computing, and is
developed as a modular framework that is generally usable within hybrid
architectures for realtime perception and control. We evaluate and demonstrate
with community established benchmarks KITTIMOD, MOT-2017, and MOT-2020. As
use-case, we focus on the significance of human-centred visual sensemaking --
e.g., involving semantic representation and explainability, question-answering,
commonsense interpolation -- in safety-critical autonomous driving situations.
The developed neurosymbolic framework is domain-independent, with the case of
autonomous driving designed to serve as an exemplar for online visual
sensemaking in diverse cognitive interaction settings in the backdrop of select
human-centred AI technology design considerations.
Keywords: Cognitive Vision, Deep Semantics, Declarative Spatial Reasoning,
Knowledge Representation and Reasoning, Commonsense Reasoning, Visual
Abduction, Answer Set Programming, Autonomous Driving, Human-Centred Computing
and Design, Standardisation in Driving Technology, Spatial Cognition and AI.
- Abstract(参考訳): 自律運転の背景において,視覚認識のためのシステム統合視覚とセマンティックスソリューションの必要性と可能性を示す。
応答集合プログラミング(ASP)を用いたオンライン視覚認識のための一般的なニューロシンボリック手法を体系的に定式化し、完全に実装する。
この手法はビジュアルコンピューティングにおける最先端技術を統合し、リアルタイムの知覚と制御のためのハイブリッドアーキテクチャで一般的に使用可能なモジュラーフレームワークとして開発されている。
我々は,コミュニティが確立したKITTIMOD,MOT-2017,MOT-2020の評価と実証を行った。
利用事例として,安全クリティカルな自律運転環境において,人間中心の視覚感覚-意味表現と説明可能性,質問・回答,常識の補間など-が重要であることに注目した。
開発されたニューロシンボリック・フレームワークはドメイン非依存であり、自律運転の場合、人間中心のAI技術設計の背景にある様々な認知的相互作用設定におけるオンライン視覚的創造の模範として機能するように設計されている。
キーワード:認知的ビジョン、深い意味論、宣言的空間的推論、知識表現と推論、常識推論、視覚的アブダクション、回答セットプログラミング、自動運転、人間中心のコンピューティングと設計、運転技術の標準化、空間認知、ai。
関連論文リスト
- Artificial General Intelligence (AGI)-Native Wireless Systems: A Journey Beyond 6G [58.440115433585824]
デジタルツイン(DT)のようなサービスをサポートする将来の無線システムの構築は、メタサーフェスのような従来の技術への進歩を通じて達成することが困難である。
人工知能(AI)ネイティブネットワークは、無線技術のいくつかの制限を克服することを約束する一方で、開発は依然としてニューラルネットワークのようなAIツールに依存している。
本稿では、AIネイティブ無線システムの概念を再考し、それらを人工知能(AGI)ネイティブシステムに変換するために必要な共通感覚を取り入れた。
論文 参考訳(メタデータ) (2024-04-29T04:51:05Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Assessing Drivers' Situation Awareness in Semi-Autonomous Vehicles: ASP
based Characterisations of Driving Dynamics for Modelling Scene
Interpretation and Projection [0.0]
我々は,運転者が状況に気付いているかを判断し,人間中心の支援を提供するための枠組みを提案する。
このフレームワークはロボット・オペレーティング・システム(ROS)内のモジュールシステムとして開発され、環境と運転者の状態を検知するモジュールを備えている。
本稿では、運転者の解釈とシーンの投影をモデル化し、推論するAnswer Set Programming(ASP)に基づくアプローチに焦点を当てる。
論文 参考訳(メタデータ) (2023-08-30T09:07:49Z) - Neurosymbolic AI - Why, What, and How [9.551858963199987]
人間は知覚と認知の組み合わせを使って環境と相互作用する。
一方、機械認識はより複雑な計算を包含する。
本稿では,ニューロシンボリックAIの新たなパラダイムを紹介する。
論文 参考訳(メタデータ) (2023-05-01T13:27:22Z) - Learning Deep Sensorimotor Policies for Vision-based Autonomous Drone
Racing [52.50284630866713]
既存のシステムは、状態推定、計画、制御のために手作業によるコンポーネントを必要とすることが多い。
本稿では、深層感触者ポリシーを学習することで、視覚に基づく自律ドローンレース問題に取り組む。
論文 参考訳(メタデータ) (2022-10-26T19:03:17Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - End-to-end Autonomous Driving Perception with Sequential Latent
Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。
潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。
学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文 参考訳(メタデータ) (2020-03-21T05:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。