論文の概要: X-Edit: Exact, Explicit, and Explainable Null-Space Editing for Medical Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.24932v1
- Date: Sun, 24 May 2026 08:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.518983
- Title: X-Edit: Exact, Explicit, and Explainable Null-Space Editing for Medical Vision Transformers
- Title(参考訳): X-Edit: 医療用ヴィジュアルトランスフォーマーのためのExact, Explicit, Explainable Null-Space Editing
- Authors: Yuanye Liu, Siyuan Zhou, Ke Zhang, Lei Li, Wei Chen, Xiahai Zhuang,
- Abstract要約: 医用画像分類のための事前訓練型ビジョントランスフォーマー (ViT) がますます普及している。
ダイナミックな臨床シナリオにおける、避けられない障害ケースの修正は、重大な課題となる。
本稿では,効率的なnull空間モデル編集フレームワークであるX-Editを提案する。
- 参考スコア(独自算出の注目度): 31.577492977298434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained Vision Transformers (ViTs) are increasingly deployed for medical image classification. However, correcting their inevitable failure cases in dynamic clinical scenarios poses a critical challenge. Conventional fine-tuning approaches inherently suffer from catastrophic forgetting, severely degrading previously acquired diagnostic capabilities. Such instability fundamentally compromises clinical safety. Addressing this vulnerability requires an active, controllable, and reliable intervention mechanism that is both theoretically grounded and inherently interpretable. To this end, we propose X-Edit (eXact, eXplicit, and eXplainable Editing), an efficient null-space model editing framework. X-Edit transitions the editing process from iterative gradient-based optimization to a theoretically grounded, closed-form solution. Specifically, we first explicitly localize the influential layers via causal tracing governing the erroneous prediction. Subsequently, we construct an orthogonal null-space projection matrix from a curated anchor set. By geometrically constraining the exact parameter update strictly within this null space, we provide mathematical guarantees that the intervention rectifies targeted errors without perturbing established diagnostic representations. Extensive evaluations on six medical imaging benchmarks demonstrate that X-Edit comprehensively suppresses catastrophic forgetting while achieving superior edit success rates. Our code is available at https://github.com/HenryLau7/X-Edit.
- Abstract(参考訳): 医用画像分類のための事前訓練型ビジョントランスフォーマー (ViT) がますます普及している。
しかし、ダイナミックな臨床シナリオで避けられない障害ケースを修正することは、重大な課題となる。
従来の微調整アプローチは本質的に破滅的な忘れ込みに悩まされ、以前に取得した診断能力を著しく低下させる。
このような不安定さは基本的に臨床の安全性を損なう。
この脆弱性に対処するには、理論上の根拠と本質的に解釈可能な、アクティブで制御可能な、信頼性の高い介入メカニズムが必要である。
そこで我々は,効率的なnull空間モデル編集フレームワークであるX-Edit(eXact,eXplicit,eXplainable Editing)を提案する。
X-Editは、編集プロセスを反復的な勾配に基づく最適化から理論的に基底化された閉形式解へと遷移させる。
具体的には、まず、誤った予測を規定する因果的トレースによって、影響するレイヤを明示的にローカライズする。
その後、キュレートされたアンカー集合から直交するヌル空間射影行列を構成する。
厳密なパラメータ更新をこのヌル空間内で厳密に制限することにより、確立された診断表現を摂動することなく、介入がターゲットエラーを修正できることを数学的に保証する。
6つの医用画像ベンチマークにおいて、X-Editは、良好な編集成功率を達成しつつ、破滅的な忘れを包括的に抑制することを示した。
私たちのコードはhttps://github.com/HenryLau7/X-Editで公開されています。
関連論文リスト
- Beyond Binary Success: A Diagnostic Meta-Evaluation Framework for Fine-Grained Manipulation [98.79811866787263]
診断メタ評価フレームワークであるMetaFineを紹介する。
局所的な空間構造を保存できる視覚エンコーダの能力は,きめ細かな精度の鍵となるボトルネックである。
評価をランキングから診断にシフトすることで、MetaFineは、ベンチマークを実際の物理デキスタリティに基づく階層化された能力の修復のための実行可能なコンパスに変換する。
論文 参考訳(メタデータ) (2026-05-19T15:25:13Z) - Regulating Anatomy-Aware Rewards via Trajectory-Integral Feedback for Volumetric Computed Tomography Analysis [30.439440028190944]
我々は,放射線学報告を検証可能な臨床的意味単位に分解する構造化システムであるtextbfClinical Abnormality Benchmarking Substrate (CABS) を導入する。
制御理論の原理を政策最適化に組み込んだ新しいフレームワークである textbfTrajectory-Integral FeedbackO (TIF-GRPO) を提案する。
論文 参考訳(メタデータ) (2026-05-19T04:33:27Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models [39.753109625930506]
HulluEditはシングルパスで参照不要な介入フレームワークである。
モデルの隠された状態をサブスペースに分解する。
これにより視覚的接地を介さずに幻覚パターンを選択的に抑制することができる。
論文 参考訳(メタデータ) (2026-02-26T08:08:25Z) - Agentic Retoucher for Text-To-Image Generation [48.80766311858762]
Agentic Retoucherは階層的な意思決定駆動のフレームワークで、ポストジェネレーションの修正を人間のような知覚・推論・アクションループとして再構成する。
この設計は、知覚的証拠、言語的推論、制御可能な修正を統一された自己修正的決定プロセスに統合する。
実験により、エージェント・リタッチは知覚品質、歪みの局在化、人間の嗜好調整において、最先端の手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-05T12:06:43Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。