論文の概要: Fully-attentive and interpretable: vision and video vision transformers
for pain detection
- arxiv url: http://arxiv.org/abs/2210.15769v1
- Date: Thu, 27 Oct 2022 21:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:15:17.892416
- Title: Fully-attentive and interpretable: vision and video vision transformers
for pain detection
- Title(参考訳): 完全注意・解釈可能:痛み検出のための視覚とビデオビジョン変換器
- Authors: Giacomo Fiorentini, Itir Onal Ertugrul, Albert Ali Salah
- Abstract要約: 痛みは世界中で深刻でコストがかかる問題だが、治療を受けるにはまず検出する必要がある。ビジョントランスフォーマーはコンピュータビジョンにおける最高のパフォーマンスのアーキテクチャであり、痛み検出に使用する研究はほとんどない。
顔表情からの2値痛み検出における最先端性能を実現するための,最初の完全適応型自動痛み検出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.9527114194392712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pain is a serious and costly issue globally, but to be treated, it must first
be detected. Vision transformers are a top-performing architecture in computer
vision, with little research on their use for pain detection. In this paper, we
propose the first fully-attentive automated pain detection pipeline that
achieves state-of-the-art performance on binary pain detection from facial
expressions. The model is trained on the UNBC-McMaster dataset, after faces are
3D-registered and rotated to the canonical frontal view. In our experiments we
identify important areas of the hyperparameter space and their interaction with
vision and video vision transformers, obtaining 3 noteworthy models. We analyse
the attention maps of one of our models, finding reasonable interpretations for
its predictions. We also evaluate Mixup, an augmentation technique, and
Sharpness-Aware Minimization, an optimizer, with no success. Our presented
models, ViT-1 (F1 score 0.55 +- 0.15), ViViT-1 (F1 score 0.55 +- 0.13), and
ViViT-2 (F1 score 0.49 +- 0.04), all outperform earlier works, showing the
potential of vision transformers for pain detection. Code is available at
https://github.com/IPDTFE/ViT-McMaster
- Abstract(参考訳): 痛みは世界中で深刻でコストのかかる問題ですが、治療にはまず発見する必要があります。
視覚変換器はコンピュータビジョンにおいて最高の性能のアーキテクチャであり、痛み検出に使用する研究はほとんどない。
本稿では,表情からの2次痛み検出における最先端のパフォーマンスを実現する,最初の完全注意型自動痛み検出パイプラインを提案する。
モデルは、UNBC-McMasterデータセットでトレーニングされ、顔が3D登録され、標準的なフロントビューに回転する。
実験では、ハイパーパラメータ空間の重要な領域と、視覚およびビデオビジョントランスフォーマとの相互作用を特定し、3つの注目すべきモデルを得た。
モデルの1つのアテンションマップを分析し、その予測に合理的な解釈を見つける。
また,拡張手法であるMixupと最適化手法であるSharpness-Aware Minimizationを評価した。
提案したモデルでは,ViT-1 (F1 score 0.55 +- 0.15),ViViT-1 (F1 score 0.55 +- 0.13),ViViT-2 (F1 score 0.49 +- 0.04) が先行研究より優れており,痛み検出のための視覚変換器の可能性を示している。
コードはhttps://github.com/IPDTFE/ViT-McMasterで入手できる。
関連論文リスト
- Vision-Language Modeling in PET/CT for Visual Grounding of Positive Findings [3.5437215225628576]
視覚言語モデルは、オブジェクトのテキスト記述と画像内の特定の位置を視覚的接地を通して接続することができる。
これらのモデルは、PET/CTに欠ける大きな注釈付き画像テキストデータセットを必要とする。
我々はPET/CTレポート記述と画像位置をリンクする弱いラベルを生成するための自動パイプラインを開発し、それを3次元視覚言語視覚接地モデルのトレーニングに使用した。
論文 参考訳(メタデータ) (2025-02-01T18:59:31Z) - Gaze-Informed Vision Transformers: Predicting Driving Decisions Under Uncertainty [5.006068984003071]
ビジョントランスフォーマー(ViT)は先進的なコンピュータビジョンを持っているが、運転のような複雑なタスクにおける有効性はいまだ研究されていない。
本研究は、視線を視線追跡によって捉え、不確実性の下での運転シナリオの予測精度を高めることにより、視線と視線を融合させることにより、視線を増強する。
論文 参考訳(メタデータ) (2023-08-26T22:48:06Z) - Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence? [106.81451807227103]
Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
論文 参考訳(メタデータ) (2023-03-31T17:56:33Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification [16.635426201975587]
ビジョントランスフォーマー (ViT) は、データハングリーの性質と注釈付き医療データの欠如により、医療タスクにおける畳み込みニューラルネットワーク (CNN) に劣る性能を示した。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
論文 参考訳(メタデータ) (2022-10-23T20:14:57Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。