論文の概要: A Probabilistic Hard Attention Model For Sequentially Observed Scenes
- arxiv url: http://arxiv.org/abs/2111.07534v1
- Date: Mon, 15 Nov 2021 04:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 03:46:36.407252
- Title: A Probabilistic Hard Attention Model For Sequentially Observed Scenes
- Title(参考訳): 連続観測シーンにおける確率的ハードアテンションモデル
- Authors: Samrudhdhi B. Rangrej, James J. Clark
- Abstract要約: 視覚的ハードアテンションモデルは、画像内のサブリージョンのシーケンスを積極的に選択し、観察し、予測する。
本稿では,このような逐次的に観察されたシーンを分類するための,効率的なハードアテンションモデルの設計を行う。
両モデルとも2~10%の精度でベースラインモデルよりも2~10%精度が向上した。
- 参考スコア(独自算出の注目度): 5.203329540700176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A visual hard attention model actively selects and observes a sequence of
subregions in an image to make a prediction. The majority of hard attention
models determine the attention-worthy regions by first analyzing a complete
image. However, it may be the case that the entire image is not available
initially but instead sensed gradually through a series of partial
observations. In this paper, we design an efficient hard attention model for
classifying such sequentially observed scenes. The presented model never
observes an image completely. To select informative regions under partial
observability, the model uses Bayesian Optimal Experiment Design. First, it
synthesizes the features of the unobserved regions based on the already
observed regions. Then, it uses the predicted features to estimate the expected
information gain (EIG) attained, should various regions be attended. Finally,
the model attends to the actual content on the location where the EIG mentioned
above is maximum. The model uses a) a recurrent feature aggregator to maintain
a recurrent state, b) a linear classifier to predict the class label, c) a
Partial variational autoencoder to predict the features of unobserved regions.
We use normalizing flows in Partial VAE to handle multi-modality in the
feature-synthesis problem. We train our model using a differentiable objective
and test it on five datasets. Our model gains 2-10% higher accuracy than the
baseline models when both have seen only a couple of glimpses.
- Abstract(参考訳): 視覚的注意モデルは、画像内のサブリージョンのシーケンスを積極的に選択し、観察し、予測する。
ハードアテンションモデルの大半は、最初に完全な画像を分析することによって、注目に値する領域を決定する。
しかし、画像全体が最初に利用可能ではなく、一連の部分的な観察を通して徐々に知覚される場合もある。
本稿では,このような逐次観察シーンを分類するための効率的なハードアテンションモデルの設計を行う。
提示されたモデルは、画像を完全に観察することはない。
部分可観測性の下で情報領域を選択するために、モデルはベイズ最適実験設計を用いる。
まず、既に観測された領域に基づいて、観測されていない領域の特徴を合成する。
そして、予測特徴を用いて、各地域への参加が期待される情報ゲイン(EIG)を推定する。
最後に、上記のEIGが最大である位置の実際のコンテンツに対応する。
モデルが使用する
a) リカレントな状態を維持するためのリカレントな特徴集積器
b) クラスラベルを予測する線形分類器
c) 非観測領域の特徴を予測する部分変分オートエンコーダ
部分vae内の正規化フローを用いて,特徴合成問題におけるマルチモダリティを扱う。
差別化可能な目標を使ってモデルをトレーニングし、5つのデータセットでテストします。
私たちのモデルはベースラインモデルよりも2~10%高い精度を実現しています。
関連論文リスト
- ASTRA: A Scene-aware TRAnsformer-based model for trajectory prediction [15.624698974735654]
ASTRA (A Scene-aware TRAnsformer based model for trajectory prediction) は軽量な歩行者軌道予測モデルである。
我々は、U-Netベースの特徴抽出器を用いて、その潜在ベクトル表現を用いて、シーン表現をキャプチャし、グラフ対応トランスフォーマーエンコーダを用いて、ソーシャルインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2025-01-16T23:28:30Z) - Comprehensive Attribution: Inherently Explainable Vision Model with Feature Detector [30.23453108681447]
Inherently explainable attribution methodはモデル行動の理解を高めることを目的としている。
これは、セレクタ(重要な特徴を特定するために属性マップを生成する)と予測器を協調的に訓練することで達成される。
マスクアウト領域における差別的特徴の存在を阻止する新たな目標を提案する。
我々のモデルは通常のブラックボックスモデルよりも高精度で正確な予測を行う。
論文 参考訳(メタデータ) (2024-07-27T17:45:20Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - PRISM: Probabilistic Real-Time Inference in Spatial World Models [52.878769723544615]
PRISMはエージェントの動きと視覚知覚の確率的生成モデルにおけるリアルタイムフィルタリングの手法である。
提案手法は10Hzでリアルタイムに動作し,小型・中型屋内環境における最先端SLAMと同等に精度が高い。
論文 参考訳(メタデータ) (2022-12-06T13:59:06Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - Unsupervised Deep Learning Meets Chan-Vese Model [77.24463525356566]
本稿では,Chan-Vese(CV)モデルとディープニューラルネットワークを統合した教師なしのイメージセグメンテーション手法を提案する。
私たちの基本的な考え方は、イメージを潜伏空間にマッピングするディープニューラルネットワークを適用して、画像空間における断片的な定数仮定の違反を軽減することです。
論文 参考訳(メタデータ) (2022-04-14T13:23:57Z) - Consistency driven Sequential Transformers Attention Model for Partially
Observable Scenes [3.652509571098291]
完全な画像のみを部分的に観察する逐次トランスフォーマー注意モデル(STAM)を開発した。
われわれのエージェントは、ImageNetとfMoWで27%と42%のピクセルを垣間見ることによって、これまでの最先端技術よりも優れています。
論文 参考訳(メタデータ) (2022-04-01T18:51:55Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Probabilistic Tracking with Deep Factors [8.030212474745879]
因子グラフに基づく確率的追跡フレームワークにおける特徴量に対する生成密度と組み合わせたディープ・フィーチャー・エンコーディングの使い方を示す。
本稿では,学習した特徴エンコーダと生成密度を組み合わせる可能性モデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:31:51Z) - On Model Calibration for Long-Tailed Object Detection and Instance
Segmentation [56.82077636126353]
NorCal, Normalized for long-tailed object detection and instance segmentation。
バックグラウンドクラスを個別に扱い、各提案のクラスに対してスコアを正規化することは、優れたパフォーマンスを達成するための鍵であることを示す。
論文 参考訳(メタデータ) (2021-07-05T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。