論文の概要: Consistency driven Sequential Transformers Attention Model for Partially
Observable Scenes
- arxiv url: http://arxiv.org/abs/2204.00656v1
- Date: Fri, 1 Apr 2022 18:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 14:45:18.104466
- Title: Consistency driven Sequential Transformers Attention Model for Partially
Observable Scenes
- Title(参考訳): 部分観測可能なシーンに対する一貫性駆動シーケンストランスフォーマーアテンションモデル
- Authors: Samrudhdhi B. Rangrej, Chetan L. Srinidhi, James J. Clark
- Abstract要約: 完全な画像のみを部分的に観察する逐次トランスフォーマー注意モデル(STAM)を開発した。
われわれのエージェントは、ImageNetとfMoWで27%と42%のピクセルを垣間見ることによって、これまでの最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 3.652509571098291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most hard attention models initially observe a complete scene to locate and
sense informative glimpses, and predict class-label of a scene based on
glimpses. However, in many applications (e.g., aerial imaging), observing an
entire scene is not always feasible due to the limited time and resources
available for acquisition. In this paper, we develop a Sequential Transformers
Attention Model (STAM) that only partially observes a complete image and
predicts informative glimpse locations solely based on past glimpses. We design
our agent using DeiT-distilled and train it with a one-step actor-critic
algorithm. Furthermore, to improve classification performance, we introduce a
novel training objective, which enforces consistency between the class
distribution predicted by a teacher model from a complete image and the class
distribution predicted by our agent using glimpses. When the agent senses only
4% of the total image area, the inclusion of the proposed consistency loss in
our training objective yields 3% and 8% higher accuracy on ImageNet and fMoW
datasets, respectively. Moreover, our agent outperforms previous
state-of-the-art by observing nearly 27% and 42% fewer pixels in glimpses on
ImageNet and fMoW.
- Abstract(参考訳): ほとんどのハード・アテンション・モデルは、最初は完全なシーンを観察し、視覚的視点を見つけ、知覚し、そのシーンのクラス・ラベルを予測する。
しかし、多くのアプリケーション(例えば空中イメージング)において、シーン全体を観察することは、取得できる時間と資源が限られているため、必ずしも実現不可能であるとは限らない。
本稿では,完全な画像のみを部分的に観察し,過去の視線のみに基づく情報的視線位置の予測を行うシーケンストランスフォーマー注意モデル(STAM)を開発する。
DeiT蒸留を用いてエージェントを設計し,一段階アクター批判アルゴリズムを用いて学習する。
さらに,教師モデルにより予測されるクラス分布と,エージェントによって予測されるクラス分布との一貫性を垣間見ることで,分類性能を向上させるための新たな学習目標を提案する。
エージェントが全体の画像面積のわずか4%を感知すると、提案する一貫性損失をトレーニング対象に含めることで、imagenetとfmowデータセットの精度がそれぞれ3%および8%向上する。
さらに、われわれのエージェントは、ImageNetやfMoWで27%と42%のピクセルを垣間見ることで、過去の最先端技術よりも優れています。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online
Action Prediction [26.184988507662535]
多くのオンライン行動予測モデルは、完全なフレームを観察し、スニースと呼ばれるフレーム内の情報的サブリージョンを特定し、参加する。
本稿では,Glimpse Transformers (GliTr) を開発した。
論文 参考訳(メタデータ) (2022-10-24T21:10:34Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。