論文の概要: Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction
- arxiv url: http://arxiv.org/abs/2112.13528v1
- Date: Mon, 27 Dec 2021 06:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:57:45.141454
- Title: Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction
- Title(参考訳): エネルギーベース潜在空間を用いた学習生成型視覚トランスによる塩分予測
- Authors: Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li
- Abstract要約: 本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
- 参考スコア(独自算出の注目度): 51.80191416661064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer networks have shown superiority in many computer vision
tasks. In this paper, we take a step further by proposing a novel generative
vision transformer with latent variables following an informative energy-based
prior for salient object detection. Both the vision transformer network and the
energy-based prior model are jointly trained via Markov chain Monte Carlo-based
maximum likelihood estimation, in which the sampling from the intractable
posterior and prior distributions of the latent variables are performed by
Langevin dynamics. Further, with the generative vision transformer, we can
easily obtain a pixel-wise uncertainty map from an image, which indicates the
model confidence in predicting saliency from the image. Different from the
existing generative models which define the prior distribution of the latent
variables as a simple isotropic Gaussian distribution, our model uses an
energy-based informative prior which can be more expressive to capture the
latent space of the data. We apply the proposed framework to both RGB and RGB-D
salient object detection tasks. Extensive experimental results show that our
framework can achieve not only accurate saliency predictions but also
meaningful uncertainty maps that are consistent with the human perception.
- Abstract(参考訳): ビジョントランスフォーマーネットワークは多くのコンピュータビジョンタスクにおいて優れている。
本稿では, 有意エネルギーに基づく物体検出に先立って, 潜在変数を持つ新しい生成視覚変換器を提案することにより, さらなる一歩を踏み出した。
視覚変換器ネットワークとエネルギーベース先行モデルの両方はマルコフ連鎖モンテカルロによる最大推定により共同で訓練され、この場合、遅延変数の抽出可能な後方および先行分布からのサンプリングはランゲヴィンダイナミクスによって実行される。
また、生成視覚変換器を用いて画像から画素方向の不確かさマップを容易に得ることができ、画像からの塩分予測に対するモデルの信頼度を示す。
既約変数の事前分布を単純な等方性ガウス分布として定義する既存の生成モデルとは異なり、本モデルはエネルギーに基づく情報的前置法を用い、データの潜在空間をより表現豊かに捉えることができる。
提案手法をrgbおよびrgb-dサルエントオブジェクト検出タスクに適用する。
広範な実験結果から,我々の枠組みは,正確な塩分予測だけでなく,人間の知覚と整合する有意義な不確実性マップを実現できることが示された。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - Variational Potential Flow: A Novel Probabilistic Framework for Energy-Based Generative Modelling [10.926841288976684]
エネルギーをベースとした新しい生成フレームワークVAPOについて述べる。
VAPOは、勾配(流れ)が前のサンプルを導くポテンシャルエネルギー関数を学習することを目的としており、その密度の進化は近似的なデータ準同相性に従う。
イメージはポテンシャルエネルギーをトレーニングした後、ガウスのサンプルを初期化し、固定時間間隔で電位フローを管理するODEを解くことで生成することができる。
論文 参考訳(メタデータ) (2024-07-21T18:08:12Z) - An Energy-Based Prior for Generative Saliency [62.79775297611203]
本稿では,情報的エネルギーベースモデルを事前分布として採用する,新たな生成正当性予測フレームワークを提案する。
生成サリエンシモデルを用いて,画像から画素単位の不確実性マップを得ることができ,サリエンシ予測におけるモデル信頼度を示す。
実験結果から, エネルギーベース先行モデルを用いた生成塩分率モデルでは, 精度の高い塩分率予測だけでなく, 人間の知覚と整合した信頼性の高い不確実性マップを実現できることが示された。
論文 参考訳(メタデータ) (2022-04-19T10:51:00Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformer Transforms Salient Object Detection and Camouflaged Object
Detection [43.79585695098729]
本研究は, トランスネットワークを用いたサルエント物体検出(SOD)に関する研究である。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として、カモフラージュオブジェクトセグメンテーションのためのカモフラージオブジェクト検出(COD)タスクにも完全に監視されたモデルを適用します。
論文 参考訳(メタデータ) (2021-04-20T17:12:51Z) - Remote sensing image fusion based on Bayesian GAN [9.852262451235472]
PANとMSの画像を入力として使用する2ストリームジェネレータネットワークを構築し,特徴抽出,特徴融合,画像再構成という3つの部分から構成される。
我々はマルコフ判別器を活用し、融合画像の再構成能力を高めることにより、結果画像がより詳細な情報を保持することができる。
QuickBirdとWorldViewのデータセット実験により,本論文で提案したモデルがPANとMSの画像を効果的に融合できることが示されている。
論文 参考訳(メタデータ) (2020-09-20T16:15:51Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。