論文の概要: EyeWorld: A Generative World Model of Ocular State and Dynamics
- arxiv url: http://arxiv.org/abs/2603.14039v1
- Date: Sat, 14 Mar 2026 17:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.564595
- Title: EyeWorld: A Generative World Model of Ocular State and Dynamics
- Title(参考訳): EyeWorld: 眼の状態とダイナミクスの生成的世界モデル
- Authors: Ziyu Gao, Xinyuan Wu, Xiaolan Chen, Zhuoran Liu, Ruoyu Chen, Bowen Liu, Bingjie Yan, Zhenhan Wang, Kai Jin, Jiancheng Yang, Yih Chung Tham, Mingguang He, Danli Shi,
- Abstract要約: EyeWorld(アイワールド)は、臨床画像に基礎を置く部分的に観察されたダイナミックなシステムとして、眼を概念化する生成的世界モデルである。
観察可能な潜伏眼状態を学び、微粒なパーシングを統一し、構造保存された相互モダリティ翻訳と品質汚染の強化を行う。
- 参考スコア(独自算出の注目度): 10.702706162884171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ophthalmic decision-making depends on subtle lesion-scale cues interpreted across multimodal imaging and over time, yet most medical foundation models remain static and degrade under modality and acquisition shifts. Here we introduce EyeWorld, a generative world model that conceptualizes the eye as a partially observed dynamical system grounded in clinical imaging. EyeWorld learns an observation-stable latent ocular state shared across modalities, unifying fine-grained parsing, structure-preserving cross-modality translation and quality-robust enhancement within a single framework. Longitudinal supervision further enables time-conditioned state transitions, supporting forecasting of clinically meaningful progression while preserving stable anatomy. By moving from static representation learning to explicit dynamical modeling, EyeWorld provides a unified approach to robust multimodal interpretation and prognosis-oriented simulation in medicine.
- Abstract(参考訳): 眼科的意思決定は、マルチモーダルイメージングと経時的に解釈される微妙な病変スケールの手がかりに依存するが、ほとんどの医療基礎モデルは、モダリティと獲得シフトの下で静的で劣化している。
本稿では,臨床画像に基礎を置いた部分的に観察された動的システムとして,眼を概念化する生成的世界モデルであるEyeWorldを紹介する。
EyeWorldは、モジュール間で共有される観察可能な潜伏眼状態を学び、きめ細かいパーシング、構造保存された相互モダリティ翻訳、そして単一のフレームワークにおける品質汚染の強化を統一する。
経時的監督は、安定な解剖を保ちながら、臨床的に有意な進行の予測をサポートする、時間的条件のある状態遷移を可能にする。
静的表現学習から明示的な動的モデリングに移行することで、EyeWorldは、医学における堅牢なマルチモーダル解釈と予後指向のシミュレーションへの統一的なアプローチを提供する。
関連論文リスト
- CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space [49.74032713886216]
CLARITYは、構造化潜在空間内で直接疾患の進化を予測する医療世界モデルである。
時間間隔(時間的文脈)と患者固有のデータ(臨床的文脈)を明確に統合し、スムーズで解釈可能な軌跡として治療条件の進行をモデル化する。
論文 参考訳(メタデータ) (2025-12-08T20:42:10Z) - DCMM-Transformer: Degree-Corrected Mixed-Membership Attention for Medical Imaging [19.273362844763806]
本稿では,DCMM(Degree-Corrected Mixed-Membership)モデルを自己注意の付加バイアスとして組み込んだ,医用画像解析のための新しいViTアーキテクチャであるDCMM-Transformerを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:55:01Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement [15.28003304776022]
インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-11T08:10:49Z) - Generative Artificial Intelligence in Medical Imaging: Foundations, Progress, and Clinical Translation [14.306027161664565]
生成人工知能(AI)は、急速に医療画像に変化をもたらしている。
生成AIは、取得と再構成からモダリティ間の合成まで、画像連続のキーステージに寄与する。
このレビューは,AI,医学,バイオメディカルエンジニアリングの交差点における今後の研究の指導と学際協力の育成を目的としている。
論文 参考訳(メタデータ) (2025-08-07T07:58:40Z) - Advances in Radiance Field for Dynamic Scene: From Neural Field to Gaussian Field [85.12359852781216]
本研究では,放射場を用いた動的シーン表現に着目した200以上の論文の体系的分析を行った。
我々は,多種多様な方法論的アプローチを統一的な表現的枠組みの下で組織し,永続的な課題の批判的検討と有望な研究方向性を結論づける。
論文 参考訳(メタデータ) (2025-05-15T07:51:08Z) - AI-powered virtual eye: perspective, challenges and opportunities [9.758442949590599]
我々は、「仮想眼」を、相互接続された基礎モデルを用いて、あらゆるスケールにわたる目の複雑な構造と生物学的機能をシミュレートする次世代AIプラットフォームとして想定する。
解釈可能性、倫理、データ処理、評価の課題にもかかわらず、仮想眼はパーソナライズされた眼科医療に革命をもたらし、眼の健康と疾患の研究を加速する可能性を秘めている。
論文 参考訳(メタデータ) (2025-05-07T14:48:56Z) - GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning [3.5948668755510136]
本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。
DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
論文 参考訳(メタデータ) (2024-12-23T03:49:29Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。