論文の概要: Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception
- arxiv url: http://arxiv.org/abs/2404.16507v1
- Date: Thu, 25 Apr 2024 11:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:59:41.155470
- Title: Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception
- Title(参考訳): 検索と取得に基づく視覚知覚におけるマルチDoFsモバイルシステムのセマンティック・アウェア次世代ビュー
- Authors: Xiaotong Yu, Chang-Wen Chen,
- Abstract要約: 可視性ゲインとセマンティックゲインの両方を統一形式で統合した新しい情報ゲインを定式化し、セマンティック・アウェアのNext-Best-Viewを選択する。
提案手法の性能を評価するために, 視点指向性や関心領域(ROI)-完全再構成ボリューム比など, 意味論的に関連するいくつかの再現指標を紹介した。
- 参考スコア(独自算出の注目度): 20.480581428768854
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient visual perception using mobile systems is crucial, particularly in unknown environments such as search and rescue operations, where swift and comprehensive perception of objects of interest is essential. In such real-world applications, objects of interest are often situated in complex environments, making the selection of the 'Next Best' view based solely on maximizing visibility gain suboptimal. Semantics, providing a higher-level interpretation of perception, should significantly contribute to the selection of the next viewpoint for various perception tasks. In this study, we formulate a novel information gain that integrates both visibility gain and semantic gain in a unified form to select the semantic-aware Next-Best-View. Additionally, we design an adaptive strategy with termination criterion to support a two-stage search-and-acquisition manoeuvre on multiple objects of interest aided by a multi-degree-of-freedoms (Multi-DoFs) mobile system. Several semantically relevant reconstruction metrics, including perspective directivity and region of interest (ROI)-to-full reconstruction volume ratio, are introduced to evaluate the performance of the proposed approach. Simulation experiments demonstrate the advantages of the proposed approach over existing methods, achieving improvements of up to 27.13% for the ROI-to-full reconstruction volume ratio and a 0.88234 average perspective directivity. Furthermore, the planned motion trajectory exhibits better perceiving coverage toward the target.
- Abstract(参考訳): モバイルシステムを用いた効率的な視覚認識は,特に関心対象の迅速かつ包括的認識が不可欠である探索・救助作業のような未知の環境において重要である。
このような現実世界のアプリケーションでは、関心のあるオブジェクトは複雑な環境に置かれることが多く、視界の最大化のみに基づく「Next Best」ビューの選択が最適である。
知覚の高レベルな解釈を提供するセマンティックスは、様々な知覚タスクに対する次の視点の選択に大きく貢献すべきである。
本研究では、視覚的なゲインとセマンティックゲインの両方を統一形式で統合した新しい情報ゲインを定式化し、セマンティック・アウェアのNext-Best-Viewを選択する。
さらに,マルチ・オブ・フリーダム(Multi-DoFs)移動システムによって支援された複数の利害対象に対する2段階の探索・取得操作を支援するために,終了基準付き適応戦略を設計する。
提案手法の性能を評価するために, 視点指向性や関心領域(ROI)-完全再構成ボリューム比など, 意味論的に関連するいくつかの再現指標を紹介した。
シミュレーション実験により提案手法の利点を実証し,ROI-to-full復元体積比と0.88234平均視点指向性について最大27.13%の改善を実現した。
さらに、計画された運動軌跡は、目標に対してより知覚的なカバレッジを示す。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Attentive Multi-View Deep Subspace Clustering Net [4.3386084277869505]
我々は,AMVDSN(Attentive Multi-View Deep Subspace Nets)を提案する。
提案手法は,コンセンサス情報とビュー固有情報の両方を明示的に考慮した有意な潜在表現を求める。
7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-23T12:57:26Z) - Generalizing Interactive Backpropagating Refinement for Dense Prediction [0.0]
本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。
提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
論文 参考訳(メタデータ) (2021-12-21T03:52:08Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - A Variational Information Bottleneck Approach to Multi-Omics Data
Integration [98.6475134630792]
本稿では,不完全な多視点観測のための深い変動情報ボトルネック (IB) 手法を提案する。
本手法は,対象物に関連のある視点内および視点間相互作用に焦点をあてるために,観測された視点の辺縁および結合表現にISBフレームワークを適用した。
実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2021-02-05T06:05:39Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。