論文の概要: Gaze Estimation using Transformer
- arxiv url: http://arxiv.org/abs/2105.14424v1
- Date: Sun, 30 May 2021 04:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:14:10.891924
- Title: Gaze Estimation using Transformer
- Title(参考訳): 変圧器を用いた視線推定
- Authors: Yihua Cheng and Feng Lu
- Abstract要約: 我々は、純粋変換器とハイブリッド変換器の2種類の視覚変換器について考察する。
私たちはまず、人気の高いViTに従い、画像から視線を推定するために純粋なトランスフォーマーを使用します。
一方、我々は畳み込み層を保存し、CNNとトランスフォーマーを統合する。
- 参考スコア(独自算出の注目度): 14.26674946195107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has proven the effectiveness of transformers in many computer
vision tasks. However, the performance of transformers in gaze estimation is
still unexplored. In this paper, we employ transformers and assess their
effectiveness for gaze estimation. We consider two forms of vision transformer
which are pure transformers and hybrid transformers. We first follow the
popular ViT and employ a pure transformer to estimate gaze from images. On the
other hand, we preserve the convolutional layers and integrate CNNs as well as
transformers. The transformer serves as a component to complement CNNs. We
compare the performance of the two transformers in gaze estimation. The Hybrid
transformer significantly outperforms the pure transformer in all evaluation
datasets with less parameters. We further conduct experiments to assess the
effectiveness of the hybrid transformer and explore the advantage of
self-attention mechanism. Experiments show the hybrid transformer can achieve
state-of-the-art performance in all benchmarks with pre-training.To facilitate
further research, we release codes and models in
https://github.com/yihuacheng/GazeTR.
- Abstract(参考訳): 近年、多くのコンピュータビジョンタスクにおいてトランスフォーマーの有効性が証明されている。
しかし、視線推定における変圧器の性能はまだ未定である。
本稿では,変圧器を用いて視線推定の有効性を評価する。
我々は、純粋変換器とハイブリッド変換器の2種類の視覚変換器を考える。
私たちはまず、人気の高いViTに従い、画像から視線を推定するために純粋なトランスフォーマーを使用します。
一方、我々は畳み込み層を保存し、CNNとトランスフォーマーを統合する。
トランスはCNNを補完するコンポーネントとして機能する。
2つの変圧器の性能を視線推定で比較する。
ハイブリッドトランスは、パラメータが少ない全ての評価データセットにおいて純粋なトランスフォーマーを著しく上回る。
さらに,ハイブリッドトランスの有効性評価実験を行い,自己注意機構の活用について検討する。
実験では、ハイブリッドトランスフォーマーがすべてのベンチマークにおいて、事前学習によって最先端のパフォーマンスを達成できることが示されています。
関連論文リスト
- On Convolutional Vision Transformers for Yield Prediction [0.0]
コンボリューション・ビジョン・トランスフォーマー (CvT) は、現在多くのビジョンタスクにおいて最先端の結果を達成しているビジョン・トランスフォーマーを評価するためにテストされている。
XGBoostやCNNなど,広くテストされているメソッドよりもパフォーマンスが悪くなるが,Transformerが収量予測を改善する可能性を示唆している。
論文 参考訳(メタデータ) (2024-02-08T10:50:12Z) - Transformers For Recognition In Overhead Imagery: A Reality Check [0.0]
オーバヘッド画像のための最先端セグメンテーションモデルにトランスフォーマー構造を加えることの影響を比較した。
我々の結果は、トランスフォーマーは一貫性があるが、控えめな、パフォーマンスの向上をもたらすことを示唆している。
論文 参考訳(メタデータ) (2022-10-23T02:17:31Z) - Boosting vision transformers for image retrieval [11.441395750267052]
視覚変換器は画像分類や検出などの視覚タスクにおいて顕著な進歩を遂げている。
しかし、インスタンスレベルの画像検索では、変換器は畳み込みネットワークと比較してまだ良い性能を示していない。
本稿では,トランスフォーマーがアートの状態を初めて上回るような改良をいくつか提案する。
論文 参考訳(メタデータ) (2022-10-21T12:17:12Z) - On the Surprising Effectiveness of Transformers in Low-Labeled Video
Recognition [18.557920268145818]
ビデオビジョントランスフォーマーは、複数の視覚タスクにまたがる畳み込みベースの手法(CNN)と競合することが示されている。
我々の研究は、ビデオ分類の低データ体制を実証的に探求し、驚くべきことに、低ラベルの動画設定においてトランスフォーマーが極めてよく機能することを発見した。
ラベル付きデータのみを用いて、トランスフォーマーは大規模未ラベルデータも活用する複雑な半教師付きCNN法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-09-15T17:12:30Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z) - Adaptive Transformers in RL [6.292138336765965]
トランスフォーマーの最近の進歩は、部分的に観察可能な強化学習タスクにおける新しい研究領域を開拓している。
2019年後半に行われた結果によると、Transformerは、メモリの激しいタスクとリアクティブタスクの両方において、LSTMを上回るパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-04-08T01:03:10Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。