論文の概要: Fully-attentive and interpretable: vision and video vision transformers
for pain detection
- arxiv url: http://arxiv.org/abs/2210.15769v1
- Date: Thu, 27 Oct 2022 21:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:15:17.892416
- Title: Fully-attentive and interpretable: vision and video vision transformers
for pain detection
- Title(参考訳): 完全注意・解釈可能:痛み検出のための視覚とビデオビジョン変換器
- Authors: Giacomo Fiorentini, Itir Onal Ertugrul, Albert Ali Salah
- Abstract要約: 痛みは世界中で深刻でコストがかかる問題だが、治療を受けるにはまず検出する必要がある。ビジョントランスフォーマーはコンピュータビジョンにおける最高のパフォーマンスのアーキテクチャであり、痛み検出に使用する研究はほとんどない。
顔表情からの2値痛み検出における最先端性能を実現するための,最初の完全適応型自動痛み検出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.9527114194392712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pain is a serious and costly issue globally, but to be treated, it must first
be detected. Vision transformers are a top-performing architecture in computer
vision, with little research on their use for pain detection. In this paper, we
propose the first fully-attentive automated pain detection pipeline that
achieves state-of-the-art performance on binary pain detection from facial
expressions. The model is trained on the UNBC-McMaster dataset, after faces are
3D-registered and rotated to the canonical frontal view. In our experiments we
identify important areas of the hyperparameter space and their interaction with
vision and video vision transformers, obtaining 3 noteworthy models. We analyse
the attention maps of one of our models, finding reasonable interpretations for
its predictions. We also evaluate Mixup, an augmentation technique, and
Sharpness-Aware Minimization, an optimizer, with no success. Our presented
models, ViT-1 (F1 score 0.55 +- 0.15), ViViT-1 (F1 score 0.55 +- 0.13), and
ViViT-2 (F1 score 0.49 +- 0.04), all outperform earlier works, showing the
potential of vision transformers for pain detection. Code is available at
https://github.com/IPDTFE/ViT-McMaster
- Abstract(参考訳): 痛みは世界中で深刻でコストのかかる問題ですが、治療にはまず発見する必要があります。
視覚変換器はコンピュータビジョンにおいて最高の性能のアーキテクチャであり、痛み検出に使用する研究はほとんどない。
本稿では,表情からの2次痛み検出における最先端のパフォーマンスを実現する,最初の完全注意型自動痛み検出パイプラインを提案する。
モデルは、UNBC-McMasterデータセットでトレーニングされ、顔が3D登録され、標準的なフロントビューに回転する。
実験では、ハイパーパラメータ空間の重要な領域と、視覚およびビデオビジョントランスフォーマとの相互作用を特定し、3つの注目すべきモデルを得た。
モデルの1つのアテンションマップを分析し、その予測に合理的な解釈を見つける。
また,拡張手法であるMixupと最適化手法であるSharpness-Aware Minimizationを評価した。
提案したモデルでは,ViT-1 (F1 score 0.55 +- 0.15),ViViT-1 (F1 score 0.55 +- 0.13),ViViT-2 (F1 score 0.49 +- 0.04) が先行研究より優れており,痛み検出のための視覚変換器の可能性を示している。
コードはhttps://github.com/IPDTFE/ViT-McMasterで入手できる。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Fixating on Attention: Integrating Human Eye Tracking into Vision
Transformers [5.221681407166792]
この研究は、人間の視覚入力、特に視線追跡装置から収集された修正をトランスフォーマーモデルに統合して、複数の運転状況やデータセットの精度を向上させる方法を示す。
我々は、人体と視覚変換器(ViT)の両方で見られるように、左右駆動決定における固定領域の重要性を確立する。
運転現場からの情報を固定データに組み込み、JSF(Joint Space-fixation)のアテンション設定を取り入れ、最後に、人が固定した地域と同じ領域でViTモデルをトレーニングするための「固定アテンション交差点」(FAX)の損失を提案する。
論文 参考訳(メタデータ) (2023-08-26T22:48:06Z) - Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence? [106.81451807227103]
Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
論文 参考訳(メタデータ) (2023-03-31T17:56:33Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification [16.635426201975587]
ビジョントランスフォーマー (ViT) は、データハングリーの性質と注釈付き医療データの欠如により、医療タスクにおける畳み込みニューラルネットワーク (CNN) に劣る性能を示した。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
論文 参考訳(メタデータ) (2022-10-23T20:14:57Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。