論文の概要: Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception
- arxiv url: http://arxiv.org/abs/2404.16507v1
- Date: Thu, 25 Apr 2024 11:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:59:41.155470
- Title: Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception
- Title(参考訳): 検索と取得に基づく視覚知覚におけるマルチDoFsモバイルシステムのセマンティック・アウェア次世代ビュー
- Authors: Xiaotong Yu, Chang-Wen Chen,
- Abstract要約: 可視性ゲインとセマンティックゲインの両方を統一形式で統合した新しい情報ゲインを定式化し、セマンティック・アウェアのNext-Best-Viewを選択する。
提案手法の性能を評価するために, 視点指向性や関心領域(ROI)-完全再構成ボリューム比など, 意味論的に関連するいくつかの再現指標を紹介した。
- 参考スコア(独自算出の注目度): 20.480581428768854
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficient visual perception using mobile systems is crucial, particularly in unknown environments such as search and rescue operations, where swift and comprehensive perception of objects of interest is essential. In such real-world applications, objects of interest are often situated in complex environments, making the selection of the 'Next Best' view based solely on maximizing visibility gain suboptimal. Semantics, providing a higher-level interpretation of perception, should significantly contribute to the selection of the next viewpoint for various perception tasks. In this study, we formulate a novel information gain that integrates both visibility gain and semantic gain in a unified form to select the semantic-aware Next-Best-View. Additionally, we design an adaptive strategy with termination criterion to support a two-stage search-and-acquisition manoeuvre on multiple objects of interest aided by a multi-degree-of-freedoms (Multi-DoFs) mobile system. Several semantically relevant reconstruction metrics, including perspective directivity and region of interest (ROI)-to-full reconstruction volume ratio, are introduced to evaluate the performance of the proposed approach. Simulation experiments demonstrate the advantages of the proposed approach over existing methods, achieving improvements of up to 27.13% for the ROI-to-full reconstruction volume ratio and a 0.88234 average perspective directivity. Furthermore, the planned motion trajectory exhibits better perceiving coverage toward the target.
- Abstract(参考訳): モバイルシステムを用いた効率的な視覚認識は,特に関心対象の迅速かつ包括的認識が不可欠である探索・救助作業のような未知の環境において重要である。
このような現実世界のアプリケーションでは、関心のあるオブジェクトは複雑な環境に置かれることが多く、視界の最大化のみに基づく「Next Best」ビューの選択が最適である。
知覚の高レベルな解釈を提供するセマンティックスは、様々な知覚タスクに対する次の視点の選択に大きく貢献すべきである。
本研究では、視覚的なゲインとセマンティックゲインの両方を統一形式で統合した新しい情報ゲインを定式化し、セマンティック・アウェアのNext-Best-Viewを選択する。
さらに,マルチ・オブ・フリーダム(Multi-DoFs)移動システムによって支援された複数の利害対象に対する2段階の探索・取得操作を支援するために,終了基準付き適応戦略を設計する。
提案手法の性能を評価するために, 視点指向性や関心領域(ROI)-完全再構成ボリューム比など, 意味論的に関連するいくつかの再現指標を紹介した。
シミュレーション実験により提案手法の利点を実証し,ROI-to-full復元体積比と0.88234平均視点指向性について最大27.13%の改善を実現した。
さらに、計画された運動軌跡は、目標に対してより知覚的なカバレッジを示す。
関連論文リスト
- Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization [19.37373012848517]
大規模視覚言語モデル(VLM)は、特に横断的不整合の形で、重要な幻覚を引き起こす傾向がある。
本稿では、画像検索を利用した新しいアライメントフレームワークRe-Alignを紹介する。
我々はまた、微調整中に視覚的嗜好を付加する、標準の直接選好最適化の拡張であるrDPOも導入する。
論文 参考訳(メタデータ) (2025-02-18T18:59:57Z) - Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。
本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-09T04:20:15Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Attentive Multi-View Deep Subspace Clustering Net [4.3386084277869505]
我々は,AMVDSN(Attentive Multi-View Deep Subspace Nets)を提案する。
提案手法は,コンセンサス情報とビュー固有情報の両方を明示的に考慮した有意な潜在表現を求める。
7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-23T12:57:26Z) - A Variational Information Bottleneck Approach to Multi-Omics Data
Integration [98.6475134630792]
本稿では,不完全な多視点観測のための深い変動情報ボトルネック (IB) 手法を提案する。
本手法は,対象物に関連のある視点内および視点間相互作用に焦点をあてるために,観測された視点の辺縁および結合表現にISBフレームワークを適用した。
実世界のデータセットの実験から、我々の手法はデータ統合から常に利益を得て、最先端のベンチマークより優れています。
論文 参考訳(メタデータ) (2021-02-05T06:05:39Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。