論文の概要: Learning Saliency From Fixations
- arxiv url: http://arxiv.org/abs/2311.14073v1
- Date: Thu, 23 Nov 2023 16:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:19:08.806554
- Title: Learning Saliency From Fixations
- Title(参考訳): 修正から回復を学ぶ
- Authors: Yasser Abdelaziz Dahou Djilali, Kevin McGuiness, Noel O'Connor
- Abstract要約: 本稿では, 画像の並列デコードを利用して, 修正マップからのみサリエンシを学習する, 画像中のサリエンシ予測のための新しいアプローチを提案する。
我々のアプローチは、Saliency TRansformer (SalTR) と呼ばれ、SaliconとMIT300ベンチマークの最先端のアプローチと同等のスコアを得る。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach for saliency prediction in images, leveraging
parallel decoding in transformers to learn saliency solely from fixation maps.
Models typically rely on continuous saliency maps, to overcome the difficulty
of optimizing for the discrete fixation map. We attempt to replicate the
experimental setup that generates saliency datasets. Our approach treats
saliency prediction as a direct set prediction problem, via a global loss that
enforces unique fixations prediction through bipartite matching and a
transformer encoder-decoder architecture. By utilizing a fixed set of learned
fixation queries, the cross-attention reasons over the image features to
directly output the fixation points, distinguishing it from other modern
saliency predictors. Our approach, named Saliency TRansformer (SalTR), achieves
metric scores on par with state-of-the-art approaches on the Salicon and MIT300
benchmarks.
- Abstract(参考訳): 本稿では, 画像の並列デコードを利用して, 修正マップからのみ唾液度を学習する手法を提案する。
モデルは通常、離散固定写像の最適化の難しさを克服するため、連続的サルマンシー写像に依存する。
我々は,saliencyデータセットを生成する実験的なセットアップを再現しようとする。
提案手法は,両部マッチングとトランスフォーマーエンコーダ・デコーダアーキテクチャを用いて,一意な固定予測を強制するグローバルな損失を通じて,サリエンシ予測を直接セット予測問題として扱う。
学習した修正クエリの固定セットを利用することで、画像特徴に対する横断的理由は、修正点を直接出力し、他の現代の唾液量予測器と区別する。
我々のアプローチは、Saliency TRansformer (SalTR) と呼ばれ、SaliconとMIT300ベンチマークの最先端のアプローチと同等のスコアを得る。
関連論文リスト
- Learning Gaussian Representation for Eye Fixation Prediction [54.88001757991433]
既存のアイ固定予測方法は、入力画像から原固定点から生成された対応する濃密な固定マップへのマッピングを行う。
本稿ではアイフィグレーションモデリングのためのガウス表現について紹介する。
我々は,リアルタイムな固定予測を実現するために,軽量なバックボーン上にフレームワークを設計する。
論文 参考訳(メタデータ) (2024-03-21T20:28:22Z) - DiffusionMat: Alpha Matting as Sequential Refinement Learning [87.76572845943929]
DiffusionMatは、粗いアルファマットから洗練されたアルファマットへの移行に拡散モデルを利用する画像マッチングフレームワークである。
補正モジュールは、各復調ステップで出力を調整し、最終的な結果が入力画像の構造と一致していることを保証する。
その結果,DiffusionMatは既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-11-22T17:16:44Z) - Neural Jacobian Fields: Learning Intrinsic Mappings of Arbitrary Meshes [38.157373733083894]
本稿では,ニューラルネットワークによる任意のメッシュの断片的線形マッピングを正確に予測するフレームワークを提案する。
このフレームワークは、グローバルな形状記述子に条件付けされた単一点の行列の予測に神経的な側面を還元することに基づいている。
個々のメッシュの固有の勾配領域で操作することで、フレームワークは高度に正確なマッピングを予測できる。
論文 参考訳(メタデータ) (2022-05-05T19:51:13Z) - An End-to-End Transformer Model for Crowd Localization [64.15335535775883]
頭の位置を予測するクラウドローカライゼーションは、単にカウントするよりも実用的でハイレベルなタスクである。
既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。
本稿では,レグレッションベースパラダイムの課題を解決するエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
論文 参考訳(メタデータ) (2022-02-26T05:21:30Z) - Conditional Variational Autoencoder for Learned Image Reconstruction [5.487951901731039]
本研究では,未知画像の後部分布を問合せ観測で近似する新しいフレームワークを開発する。
暗黙のノイズモデルと先行処理を処理し、データ生成プロセス(フォワード演算子)を組み込み、学習された再構成特性は異なるデータセット間で転送可能である。
論文 参考訳(メタデータ) (2021-10-22T10:02:48Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Calibrated Adversarial Refinement for Stochastic Semantic Segmentation [5.849736173068868]
本稿では,各予測に関連付けられた確率が,その根拠となる真偽の正しさを反映する,セマンティックマップ上の校正された予測分布を学習するための戦略を提案する。
マルチグレーダのLIDCデータセットと、注入曖昧さのあるCityscapesデータセットに対して、最先端の成果を達成し、アプローチの汎用性と堅牢性を実証する。
本研究は,おもちゃの回帰データセットを用いて実験することにより,校正された予測分布の学習を必要とする他のタスクにコア設計を適用することができることを示す。
論文 参考訳(メタデータ) (2020-06-23T16:39:59Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。