論文の概要: Comparative Analysis of Vision Transformer, Convolutional, and Hybrid Architectures for Mental Health Classification Using Actigraphy-Derived Images
- arxiv url: http://arxiv.org/abs/2512.00103v1
- Date: Thu, 27 Nov 2025 08:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.066484
- Title: Comparative Analysis of Vision Transformer, Convolutional, and Hybrid Architectures for Mental Health Classification Using Actigraphy-Derived Images
- Title(参考訳): アクティグラフィ画像を用いたメンタルヘルス分類のための視覚変換器, 畳み込み, ハイブリッドアーキテクチャの比較分析
- Authors: Ifeanyi Okala,
- Abstract要約: 本研究では、VGG16、VT-B/16、CoAtNet-Tinyの3つの異なる画像ベース手法が、うつ病、統合失調症、健康管理を日々の行動記録を用いて識別する方法について検討する。
VGG16は着実に改善されたが、しばしば低い精度で落ち着いた。
CoAtNet-Tinyは最も信頼性が高く、折り畳み平均精度と最も安定した曲線を記録している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines how three different image-based methods, VGG16, ViT-B/16, and CoAtNet-Tiny, perform in identifying depression, schizophrenia, and healthy controls using daily actigraphy records. Wrist-worn activity signals from the Psykose and Depresjon datasets were converted into 30 by 48 images and evaluated through a three-fold subject-wise split. Although all methods fitted the training data well, their behaviour on unseen data differed. VGG16 improved steadily but often settled at lower accuracy. ViT-B/16 reached strong results in some runs, but its performance shifted noticeably from fold to fold. CoAtNet-Tiny stood out as the most reliable, recording the highest average accuracy and the most stable curves across folds. It also produced the strongest precision, recall, and F1-scores, particularly for the underrepresented depression and schizophrenia classes. Overall, the findings indicate that CoAtNet-Tiny performed most consistently on the actigraphy images, while VGG16 and ViT-B/16 yielded mixed results. These observations suggest that certain hybrid designs may be especially suited for mental-health work that relies on actigraphy-derived images.
- Abstract(参考訳): 本研究では、VGG16、VT-B/16、CoAtNet-Tinyの3つの異なる画像ベース手法が、うつ病、統合失調症、健康管理を日々の行動記録を用いて識別する方法について検討する。
The Psykose and Depresjon datasets were converted to 30 by 48 image and evaluation through a three-fold subject-wise split。
すべての手法がトレーニングデータをうまく適合させたが、見当たらないデータに対するそれらの振る舞いは異なっていた。
VGG16は着実に改善したが、しばしば低い精度で落ち着いた。
ViT-B/16はいくつかの走行で強い結果を得たが、性能は折りたたみから折りたたみに顕著に変化した。
CoAtNet-Tinyは最も信頼性が高く、折り畳み平均精度と最も安定した曲線を記録している。
また、最強の精度、リコール、F1スコア、特に低発現のうつ病や統合失調症のためにも生産された。
総じて,CoAtNet-Tinyはアクチグラフィ画像にほぼ一貫した効果を示し,VGG16とViT-B/16は混合した結果を得た。
これらの観察から、特定のハイブリッドデザインは、アクチグラフィー由来の画像に依存する精神保健作業に特に適している可能性が示唆された。
関連論文リスト
- On the Problem of Consistent Anomalies in Zero-Shot Industrial Anomaly Detection [0.0]
類似性計算から一貫した異常を識別・フィルタリングする新しいアルゴリズムであるConsistent-Anomaly Detection Graph (CoDeGraph)を導入する。
CoDeGraphはイメージレベルのグラフを構築し、イメージをノードとして、エッジを共通の一貫したアノマリーパターンで接続する。
ViT-L-14-336バックボーンを用いたMVTec ADの実験では、AUROCが98.3%、ASが66.8%であった。
論文 参考訳(メタデータ) (2025-10-12T05:28:28Z) - Towards Data-Efficient Medical Imaging: A Generative and Semi-Supervised Framework [7.361236630859648]
SSGNetは、分類とセグメンテーションの両方を強化するために、クラス固有の生成モデリングと反復的な半教師付き擬似ラベリングを組み合わせた統合フレームワークである。
複数の医用画像ベンチマークによる実験では、分類とセグメンテーションのパフォーマンスが一貫した向上を示した。
論文 参考訳(メタデータ) (2025-10-07T17:03:05Z) - Detecção da Psoríase Utilizando Visão Computacional: Uma Abordagem Comparativa Entre CNNs e Vision Transformers [0.0]
本報告では, 咽頭病変とそれに似た疾患を含む多分類画像のタスクにおけるCNNとViTsの性能の比較を行った。
ViTはより小型のモデルで優れた性能を誇った。
本稿では、医用画像分類タスクにおけるViTsの可能性を強化する。
論文 参考訳(メタデータ) (2025-06-11T19:00:32Z) - GIFDL: Generated Image Fluctuation Distortion Learning for Enhancing Steganographic Security [59.863152942470784]
本稿では, 生成画像のゆらぎに基づく手話歪み学習手法であるGIFDLを提案する。
GIFDLはステガナリシスに対して優れた耐性を示し、3つのステガナリザーで平均3.30%の検出誤差率を増大させる。
論文 参考訳(メタデータ) (2025-04-21T14:43:00Z) - Adaptive Hierarchical Graph Cut for Multi-granularity Out-of-distribution Detection [10.200872243175183]
本稿では,配布外検知(OOD検出)という重要な課題に焦点をあてる。
これまでの作業はまともな成功を収めましたが、現実の挑戦的なアプリケーションには効果がありません。
本稿では,異なる画像間の意味的関係を探索するために,適応階層型グラフカットネットワーク(AHGC)を提案する。
論文 参考訳(メタデータ) (2024-12-20T08:32:02Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Data-Efficient Vision Transformers for Multi-Label Disease
Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。
ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。
以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文 参考訳(メタデータ) (2022-08-17T09:07:45Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。