論文の概要: Active Visual Exploration Based on Attention-Map Entropy
- arxiv url: http://arxiv.org/abs/2303.06457v2
- Date: Wed, 19 Apr 2023 18:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 16:32:13.460687
- Title: Active Visual Exploration Based on Attention-Map Entropy
- Title(参考訳): 注意マップエントロピーに基づくアクティブビジュアル探索
- Authors: Adam Pardyl, Grzegorz Rype\'s\'c, Grzegorz Kurzejamski, Bartosz
Zieli\'nski, Tomasz Trzci\'nski
- Abstract要約: 注意マップエントロピー(AME: Attention-Map Entropy)と呼ばれる新しい手法を導入する。
AMEは、トレーニングを単純化する余分なロスコンポーネントを必要としない。
このような簡易なトレーニングは、公開データセットの再構成、セグメンテーション、分類の性能を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 13.064016215754163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active visual exploration addresses the issue of limited sensor capabilities
in real-world scenarios, where successive observations are actively chosen
based on the environment. To tackle this problem, we introduce a new technique
called Attention-Map Entropy (AME). It leverages the internal uncertainty of
the transformer-based model to determine the most informative observations. In
contrast to existing solutions, it does not require additional loss components,
which simplifies the training. Through experiments, which also mimic
retina-like sensors, we show that such simplified training significantly
improves the performance of reconstruction, segmentation and classification on
publicly available datasets.
- Abstract(参考訳): アクティブビジュアル探索は、環境に基づいて連続した観測がアクティブに選択される現実世界のシナリオにおいて、限られたセンサー能力の問題に対処する。
この問題に対処するために,Attention-Map Entropy (AME) と呼ばれる新しい手法を導入する。
変圧器モデルの内部の不確実性を利用して、最も情報性の高い観測値を決定する。
既存のソリューションとは対照的に、トレーニングを単純化する追加の損失コンポーネントは必要ない。
網膜様センサを模倣する実験により、そのような簡易なトレーニングにより、公開データセットの再構成、セグメンテーション、分類の性能が大幅に向上することを示した。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Kriformer: A Novel Spatiotemporal Kriging Approach Based on Graph Transformers [5.4381914710364665]
本研究は, 環境問題として, スパースセンサの配置と信頼性の低いデータに対処する。
グラフクリフォーマーモデルであるKriformerは、限られた資源であっても、空間的および時間的相関をマイニングすることで、センサのない場所でデータを推定する。
論文 参考訳(メタデータ) (2024-09-23T11:01:18Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection [8.977792536037956]
日常的な屋内ナビゲーションでは、ロボットは区別できない小さな変化物体を検出する必要がある。
既存の技術は、変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。
本研究では,受動とアクティブビジョンの両方を改善するために,DoIの概念を検討する。
論文 参考訳(メタデータ) (2024-05-10T01:56:39Z) - Exploring Predicate Visual Context in Detecting Human-Object
Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。
PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-08-11T15:57:45Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Looking Beyond Corners: Contrastive Learning of Visual Representations
for Keypoint Detection and Description Extraction [1.5749416770494706]
学習可能なキーポイント検出器とディスクリプタは、古典的な手作りの特徴抽出方法よりも優れています。
視覚表現の自己教師型学習に関する最近の研究は、深層ネットワークに基づく学習可能なモデルの性能向上を促している。
本稿では,繰り返し可能なキーポイントを検知し,識別的記述を抽出する対応ネットワーク(CorrNet)を提案する。
論文 参考訳(メタデータ) (2021-12-22T16:27:11Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。