論文の概要: A Dynamic Data Driven Approach for Explainable Scene Understanding
- arxiv url: http://arxiv.org/abs/2206.09089v1
- Date: Sat, 18 Jun 2022 02:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-26 15:46:08.137818
- Title: A Dynamic Data Driven Approach for Explainable Scene Understanding
- Title(参考訳): 説明可能なシーン理解のための動的データ駆動アプローチ
- Authors: Zachary A Daniels and Dimitris Metaxas
- Abstract要約: シーン理解はコンピュータビジョンの領域において重要なトピックである。
我々は、シーンの活発な説明駆動的理解と分類について考察する。
我々のフレームワークはACUMEN: Active Classification and Understanding Method by Explanation-driven Networksである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene-understanding is an important topic in the area of Computer Vision, and
illustrates computational challenges with applications to a wide range of
domains including remote sensing, surveillance, smart agriculture, robotics,
autonomous driving, and smart cities. We consider the active explanation-driven
understanding and classification of scenes. Suppose that an agent utilizing one
or more sensors is placed in an unknown environment, and based on its sensory
input, the agent needs to assign some label to the perceived scene. The agent
can adjust its sensor(s) to capture additional details about the scene, but
there is a cost associated with sensor manipulation, and as such, it is
important for the agent to understand the scene in a fast and efficient manner.
It is also important that the agent understand not only the global state of a
scene (e.g., the category of the scene or the major events taking place in the
scene) but also the characteristics/properties of the scene that support
decisions and predictions made about the global state of the scene. Finally,
when the agent encounters an unknown scene category, it must be capable of
refusing to assign a label to the scene, requesting aid from a human, and
updating its underlying knowledge base and machine learning models based on
feedback provided by the human. We introduce a dynamic data driven framework
for the active explanation-driven classification of scenes. Our framework is
entitled ACUMEN: Active Classification and Understanding Method by
Explanation-driven Networks. To demonstrate the utility of the proposed ACUMEN
approach and show how it can be adapted to a domain-specific application, we
focus on an example case study involving the classification of indoor scenes
using an active robotic agent with vision-based sensors, i.e., an
electro-optical camera.
- Abstract(参考訳): シーン理解はコンピュータビジョンの分野で重要なトピックであり、リモートセンシング、監視、スマート農業、ロボティクス、自動運転、スマートシティなど、幅広いドメインへの応用における計算上の課題を説明している。
シーンの活発な理解と分類について考察する。
1つ以上のセンサーを利用するエージェントが未知の環境に置かれ、その感覚入力に基づいて、エージェントは認識されたシーンにラベルを割り当てる必要があると仮定する。
エージェントは、そのセンサーを調整してシーンに関する追加情報を取得することができるが、センサ操作に関連するコストがかかるため、エージェントが迅速かつ効率的にシーンを理解することが重要である。
また、エージェントは、シーンのグローバルな状態(例えば、シーンのカテゴリやシーンの主要イベント)だけでなく、シーンのグローバルな状態に関する決定や予測を支援するシーンの特徴やプロパティも理解することが重要である。
最後に、エージェントが未知のシーンカテゴリに遭遇した場合、そのシーンにラベルを割り当てることを拒否し、人間からの援助を要請し、その基盤となる知識ベースと人間のフィードバックに基づいて機械学習モデルを更新しなければならない。
シーンのアクティブな説明駆動分類のための動的データ駆動フレームワークを提案する。
我々のフレームワークはACUMEN: Active Classification and Understanding Method by Explanation-driven Networksである。
提案手法の有用性を実証し,それをドメイン固有の応用に適用できることを示すために,視覚センサを用いたアクティブなロボットエージェント,すなわち電気光学カメラを用いた屋内シーンの分類に関する事例研究に焦点を当てた。
関連論文リスト
- Interpretable End-to-End Driving Model for Implicit Scene Understanding [3.4248756007722987]
暗黙的な高次元シーン特徴を抽出するエンド・ツー・エンドのインプリケート・インプリケート・ドライビング・シーン理解(II-DSU)モデルを提案する。
提案手法は,新しい最先端技術を実現し,運転に関連するよりリッチなシーン情報を具現化したシーン特徴を得ることができる。
論文 参考訳(メタデータ) (2023-08-02T14:43:08Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer
Learning for Telepresence Robotics [124.08684545010664]
画像からのシーングラフ生成は、ロボット工学のようなアプリケーションに非常に関心を持つタスクである。
オントロジー誘導シーングラフ生成(OG-SGG)と呼ばれるフレームワークの初期近似を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:23:15Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - An Image-based Approach of Task-driven Driving Scene Categorization [7.291979964739049]
本稿では,弱監督データを用いたタスク駆動運転場面分類手法を提案する。
異なるセマンティック属性のシーンを対比学習によって識別する尺度を学習する。
セマンティックシーン類似性学習とドライビングシーン分類の結果を広範囲に研究した。
論文 参考訳(メタデータ) (2021-03-10T08:23:36Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Towards Embodied Scene Description [36.17224570332247]
身体は知的エージェント(創造物やロボット)にとって重要な特徴である
本研究では,シーン記述タスクの環境に最適な視点を見出すために,エージェントの実施能力を利用したシーン記述を提案する。
模倣学習と強化学習のパラダイムを備えた学習枠組みを構築し、知的エージェントにそれに対応する感覚運動を生成させる。
論文 参考訳(メタデータ) (2020-04-30T08:50:25Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z) - Contextual Sense Making by Fusing Scene Classification, Detections, and
Events in Full Motion Video [0.7348448478819135]
本研究では,航空FMVのデータの利用と活用に関する人間アナリストのニーズに対処することを目的とする。
問題を,(1)コンテキスト認識,(2)オブジェクトカタログ化,(3)イベント検出の3つのタスクに分割した。
地理的領域の異なる解像度の異なるセンサのデータに対して,本手法を適用した。
論文 参考訳(メタデータ) (2020-01-16T18:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。