論文の概要: CeViT: Copula-Enhanced Vision Transformer in multi-task learning and bi-group image covariates with an application to myopia screening
- arxiv url: http://arxiv.org/abs/2501.06540v1
- Date: Sat, 11 Jan 2025 13:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:20:43.944324
- Title: CeViT: Copula-Enhanced Vision Transformer in multi-task learning and bi-group image covariates with an application to myopia screening
- Title(参考訳): CeViT: Copula-Enhanced Vision Transformerによるマルチタスク学習とバイグループ画像の共変と近視スクリーニングへの応用
- Authors: Chong Zhong, Yang Li, Jinfeng Xu, Xiang Fu, Yunhao Liu, Qiuyi Huang, Danjuan Yang, Meiyan Li, Aiyi Liu, Alan H. Welsh, Xingtao Zhou, Bo Fu, Catherine C. Liu,
- Abstract要約: 本稿では,ビジョントランスフォーマーをベースとしたバイチャネルアーキテクチャCeViTを提案し,その共通特徴を共有トランスフォーマーエンコーダを用いて抽出する。
我々は,CeViTが両眼で高視力の分類とALの予測の精度でベースラインモデルを強化することを実証した。
- 参考スコア(独自算出の注目度): 9.928208927136874
- License:
- Abstract: We aim to assist image-based myopia screening by resolving two longstanding problems, "how to integrate the information of ocular images of a pair of eyes" and "how to incorporate the inherent dependence among high-myopia status and axial length for both eyes." The classification-regression task is modeled as a novel 4-dimensional muti-response regression, where discrete responses are allowed, that relates to two dependent 3rd-order tensors (3D ultrawide-field fundus images). We present a Vision Transformer-based bi-channel architecture, named CeViT, where the common features of a pair of eyes are extracted via a shared Transformer encoder, and the interocular asymmetries are modeled through separated multilayer perceptron heads. Statistically, we model the conditional dependence among mixture of discrete-continuous responses given the image covariates by a so-called copula loss. We establish a new theoretical framework regarding fine-tuning on CeViT based on latent representations, allowing the black-box fine-tuning procedure interpretable and guaranteeing higher relative efficiency of fine-tuning weight estimation in the asymptotic setting. We apply CeViT to an annotated ultrawide-field fundus image dataset collected by Shanghai Eye \& ENT Hospital, demonstrating that CeViT enhances the baseline model in both accuracy of classifying high-myopia and prediction of AL on both eyes.
- Abstract(参考訳): 両眼の視線画像情報の統合」と「両眼の高明視状態と軸長に固有の依存を組み込む方法」という2つの長年の課題を解決し、画像ベースの近視スクリーニングを支援することを目的としている。
分類回帰タスクは、2つの依存する3階テンソル (3D Ultrawide-field-fundus image) に関連する離散応答が許容される新しい4次元ミューティ応答回帰としてモデル化される。
両眼の共通特徴を共有トランスフォーマーエンコーダで抽出し,多層パーセプトロンヘッドを分離して眼間アシンメトリーをモデル化した,ビジョントランスフォーマーベースのバイチャネルアーキテクチャCeViTを提案する。
統計的には、画像が共変している場合の離散連続応答の混合による条件依存を、いわゆるコプラ損失によってモデル化する。
我々は,潜伏表現に基づくCeViTの微調整に関する新たな理論的枠組みを確立し,ブラックボックスの微調整手順を解釈し,漸近的環境下での微調整重量推定の相対効率を高める。
我々はCeViTを上海アイ&ENT病院が収集した注釈付き超広視野画像データセットに適用し、CeViTは高視力の分類精度と両眼のALの予測精度の両方でベースラインモデルを強化することを示した。
関連論文リスト
- Multi-Class Abnormality Classification Task in Video Capsule Endoscopy [3.656114607436271]
本研究は,ビデオカプセル内視鏡(VCE)における多クラス異常分類の課題に対処するものである。
本研究の目的は,さまざまな消化管疾患を正しく分類することであり,臨床現場での診断効率の向上に重要である。
チームカプセルコマンドは,平均AUCが0.7314,精度が0.3235で7位にランクインした。
論文 参考訳(メタデータ) (2024-10-25T21:22:52Z) - Intraoperative Registration by Cross-Modal Inverse Neural Rendering [61.687068931599846]
クロスモーダル逆ニューラルレンダリングによる神経外科手術における術中3D/2Dレジストレーションのための新しいアプローチを提案する。
本手法では,暗黙の神経表現を2つの構成要素に分離し,術前および術中における解剖学的構造について検討した。
臨床症例の振り返りデータを用いて本法の有効性を検証し,現在の登録基準を満たした状態での最先端の検査成績を示した。
論文 参考訳(メタデータ) (2024-09-18T13:40:59Z) - OU-CoViT: Copula-Enhanced Bi-Channel Multi-Task Vision Transformers with Dual Adaptation for OU-UWF Images [6.710406784225201]
近縁超広視野画像(UWF)を用いた近視スクリーニングは,眼科領域におけるマルチタスク問題に対して有望な新しいパラダイムを示す。
OU-CoViT:OU-UWF画像のデュアル適応型Copula-Enhanced Bi-Channel Multi-Task Vision Transformer。
論文 参考訳(メタデータ) (2024-08-18T07:42:11Z) - Dual-Image Enhanced CLIP for Zero-Shot Anomaly Detection [58.228940066769596]
本稿では,統合視覚言語スコアリングシステムを活用したデュアルイメージ強化CLIP手法を提案する。
提案手法は,画像のペアを処理し,それぞれを視覚的参照として利用することにより,視覚的コンテキストによる推論プロセスを強化する。
提案手法は視覚言語による関節異常検出の可能性を大幅に活用し,従来のSOTA法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-05-08T03:13:20Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Single-subject Multi-contrast MRI Super-resolution via Implicit Neural
Representations [9.683341998041634]
Inlicit Neural Representations (INR) は連続空間関数における相補的視点の2つの異なるコントラストを学習することを提案した。
我々のモデルは、3つのデータセットを用いた実験において、異なるコントラストのペア間で現実的な超解像を提供する。
論文 参考訳(メタデータ) (2023-03-27T10:18:42Z) - ChiTransformer:Towards Reliable Stereo from Cues [10.756828396434033]
現在のステレオマッチング技術は、制限された探索空間、隠蔽領域、およびせん断サイズによって挑戦される。
本稿では,光学機構にインスパイアされた自己監督型両眼深度推定法を提案する。
ChiTransformerアーキテクチャは、最先端の自己教師型ステレオアプローチよりも11%大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-09T07:19:58Z) - CyTran: A Cycle-Consistent Transformer with Multi-Level Consistency for
Non-Contrast to Contrast CT Translation [56.622832383316215]
コントラストCTを非コントラストCTに変換する手法を提案する。
提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。
実験の結果、CyTranは競合するすべての手法より優れています。
論文 参考訳(メタデータ) (2021-10-12T23:25:03Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Dueling Deep Q-Network for Unsupervised Inter-frame Eye Movement
Correction in Optical Coherence Tomography Volumes [5.371290280449071]
オプティカルコヒーレンス・トモグラフィー(OCT)では、個々のスライスを連続的に取得することで、運動アーティファクトにこのモダリティが生じる。
この画像モダリティの特徴であるスペックルノイズは、従来の登録技術が採用されている際に不正確となる。
本稿では、深層強化学習を用いて、フレーム間の動きを教師なしで補正することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2020-07-03T07:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。