Fugu-MT 論文翻訳(概要): Active Visual Exploration Based on Attention-Map Entropy

論文の概要: Active Visual Exploration Based on Attention-Map Entropy

arxiv url: http://arxiv.org/abs/2303.06457v1
Date: Sat, 11 Mar 2023 17:14:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 18:51:30.968173
Title: Active Visual Exploration Based on Attention-Map Entropy
Title（参考訳）: 注意マップエントロピーに基づくアクティブビジュアル探索
Authors: Adam Pardyl, Grzegorz Rype\'s\'c, Grzegorz Kurzejamski, Bartosz Zieli\'nski, Tomasz Trzci\'nski
Abstract要約: 注意マップエントロピー(AME: Attention-Map Entropy)と呼ばれる新しい手法を導入する。 AMEは、トレーニングを単純化する余分なロスコンポーネントを必要としない。このような簡易なトレーニングにより、公開データセットの再構築と分類の性能が大幅に向上することを示す。
参考スコア（独自算出の注目度）: 13.064016215754163
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Active visual exploration addresses the issue of limited sensor capabilities in real-world scenarios, where successive observations are actively chosen based on the environment. To tackle this problem, we introduce a new technique called Attention-Map Entropy (AME). It leverages the internal uncertainty of the transformer-based model to determine the most informative observations. In contrast to existing solutions, it does not require additional loss components, which simplifies the training. Through experiments, which also mimic retina-like sensors, we show that such simplified training significantly improves the performance of reconstruction and classification on publicly available datasets.
Abstract（参考訳）: アクティブビジュアル探索は、環境に基づいて連続した観測がアクティブに選択される現実世界のシナリオにおいて、限られたセンサー能力の問題に対処する。この問題に対処するために,Attention-Map Entropy (AME) と呼ばれる新しい手法を導入する。変圧器モデルの内部の不確実性を利用して、最も情報性の高い観測値を決定する。既存のソリューションとは対照的に、トレーニングを単純化する追加の損失コンポーネントは必要ない。網膜様センサを模倣する実験により、そのような簡易なトレーニングにより、公開データセットの再構成と分類の性能が大幅に向上することを示した。

関連論文リスト

RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。重要な洞察は、停止語は注意磁石として機能するということだ。停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文参考訳（メタデータ） (2025-09-26T17:59:57Z)
BOOTPLACE: Bootstrapped Object Placement with Detection Transformers [23.300369070771836]
本稿では,オブジェクト配置を位置検出問題として定式化する新しいパラダイムであるBOOTPLACEを紹介する。確立されたベンチマークの実験結果は、BOOTPLACEのオブジェクト再配置における優れた性能を示している。
論文参考訳（メタデータ） (2025-03-27T21:21:20Z)
Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。 PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文参考訳（メタデータ） (2024-11-22T05:41:00Z)
Kriformer: A Novel Spatiotemporal Kriging Approach Based on Graph Transformers [5.4381914710364665]
本研究は, 環境問題として, スパースセンサの配置と信頼性の低いデータに対処する。グラフクリフォーマーモデルであるKriformerは、限られた資源であっても、空間的および時間的相関をマイニングすることで、センサのない場所でデータを推定する。
論文参考訳（メタデータ） (2024-09-23T11:01:18Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection [8.977792536037956]
日常的な屋内ナビゲーションでは、ロボットは区別できない小さな変化物体を検出する必要がある。既存の技術は、変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。本研究では,受動とアクティブビジョンの両方を改善するために,DoIの概念を検討する。
論文参考訳（メタデータ） (2024-05-10T01:56:39Z)
Exploring Predicate Visual Context in Detecting Human-Object Interactions [44.937383506126274]
クロスアテンションによる画像特徴の再導入について検討する。 PViCはHICO-DETおよびV-COCOベンチマークにおいて最先端の手法より優れている。
論文参考訳（メタデータ） (2023-08-11T15:57:45Z)
Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文参考訳（メタデータ） (2023-07-02T21:14:49Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文参考訳（メタデータ） (2022-08-24T16:54:38Z)
Looking Beyond Corners: Contrastive Learning of Visual Representations for Keypoint Detection and Description Extraction [1.5749416770494706]
学習可能なキーポイント検出器とディスクリプタは、古典的な手作りの特徴抽出方法よりも優れています。視覚表現の自己教師型学習に関する最近の研究は、深層ネットワークに基づく学習可能なモデルの性能向上を促している。本稿では,繰り返し可能なキーポイントを検知し,識別的記述を抽出する対応ネットワーク(CorrNet)を提案する。
論文参考訳（メタデータ） (2021-12-22T16:27:11Z)
Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文参考訳（メタデータ） (2021-04-22T12:47:37Z)
Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-11-01T19:24:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。