論文の概要: MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer
- arxiv url: http://arxiv.org/abs/2405.19501v1
- Date: Wed, 29 May 2024 20:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 19:06:28.645163
- Title: MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer
- Title(参考訳): MDS-ViTNet:視覚変換器による視線追跡の精度予測の改善
- Authors: Polezhaev Ignat, Goncharenko Igor, Iurina Natalya,
- Abstract要約: MDS-ViTNet(Multi Decoder Saliency by Vision Transformer Network)を提案する。
このアプローチは、マーケティング、医療、ロボティクス、小売など、さまざまな分野において大きな可能性を秘めている。
我々の訓練されたモデルは、いくつかのベンチマークで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel methodology we call MDS-ViTNet (Multi Decoder Saliency by Vision Transformer Network) for enhancing visual saliency prediction or eye-tracking. This approach holds significant potential for diverse fields, including marketing, medicine, robotics, and retail. We propose a network architecture that leverages the Vision Transformer, moving beyond the conventional ImageNet backbone. The framework adopts an encoder-decoder structure, with the encoder utilizing a Swin transformer to efficiently embed most important features. This process involves a Transfer Learning method, wherein layers from the Vision Transformer are converted by the Encoder Transformer and seamlessly integrated into a CNN Decoder. This methodology ensures minimal information loss from the original input image. The decoder employs a multi-decoding technique, utilizing dual decoders to generate two distinct attention maps. These maps are subsequently combined into a singular output via an additional CNN model. Our trained model MDS-ViTNet achieves state-of-the-art results across several benchmarks. Committed to fostering further collaboration, we intend to make our code, models, and datasets accessible to the public.
- Abstract(参考訳): 本稿では、視覚的サリエンシ予測や視線追跡を改善するため、MDS-ViTNet(Multi Decoder Saliency by Vision Transformer Network)と呼ばれる新しい手法を提案する。
このアプローチは、マーケティング、医療、ロボティクス、小売など、さまざまな分野において大きな可能性を秘めている。
本稿では、従来のImageNetバックボーンを超えて、Vision Transformerを利用するネットワークアーキテクチャを提案する。
フレームワークはエンコーダ-デコーダ構造を採用し、エンコーダはSwinトランスフォーマーを使用して最も重要な機能を効率的に埋め込む。
このプロセスにはTransfer Learningメソッドが含まれており、Vision TransformerのレイヤはEncoder Transformerで変換され、CNN Decoderにシームレスに統合される。
この手法は、元の入力画像からの情報損失を最小限に抑える。
デコーダは2つの異なる注意マップを生成するためにデュアルデコーダを利用するマルチデコーダ技術を採用している。
これらの写像はその後、追加のCNNモデルを介して特異出力に結合される。
我々のトレーニングモデルMDS-ViTNetは、いくつかのベンチマークで最先端の結果を得る。
さらなるコラボレーションを促進するために、コードやモデル、データセットを一般向けに公開するつもりです。
関連論文リスト
- Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - Rethinking Attention Gated with Hybrid Dual Pyramid Transformer-CNN for Generalized Segmentation in Medical Imaging [17.07490339960335]
本稿では,強力なCNN-Transformerエンコーダを効率的に構築するためのハイブリッドCNN-Transformerセグメンテーションアーキテクチャ(PAG-TransYnet)を提案する。
我々のアプローチは、デュアルピラミッドハイブリッドエンコーダ内のアテンションゲートを利用する。
論文 参考訳(メタデータ) (2024-04-28T14:37:10Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Image Captioning In the Transformer Age [71.06437715212911]
Image Captioning (IC)は、CNN-RNNエンコーダ・デコーダアーキテクチャに様々な技術を統合することで驚くべき発展を遂げた。
本稿では,ICと一般的な自己教師型学習パラダイムの関連性について分析する。
論文 参考訳(メタデータ) (2022-04-15T08:13:39Z) - Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy
for Image Recognition without Convolutions [1.1032962642000486]
この作業は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-merge-transformを使用してグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と命名する。
CIFAR-10データセット上で画像分類タスクを行い、COCO 2017データセット上でオブジェクト検出タスクを実行する。
論文 参考訳(メタデータ) (2022-03-02T09:14:28Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Attention-Based Multimodal Image Matching [16.335191345543063]
本稿では,Transformerエンコーダを用いたマルチモーダル画像パッチマッチングのためのアテンションベースアプローチを提案する。
このエンコーダは,タスク固有の外見不変のイメージキューを強調しつつ,マルチスケールな画像埋め込みを効率的に集約する。
これはTransformerエンコーダアーキテクチャをマルチモーダル画像パッチマッチングタスクに実装した最初の成功例である。
論文 参考訳(メタデータ) (2021-03-20T21:14:24Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。