論文の概要: Improving Clinical Dataset Condensation with Mode Connectivity-based Trajectory Surrogates
- arxiv url: http://arxiv.org/abs/2510.05805v1
- Date: Tue, 07 Oct 2025 11:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.225153
- Title: Improving Clinical Dataset Condensation with Mode Connectivity-based Trajectory Surrogates
- Title(参考訳): モード接続性に基づくトラジェクトリサロゲートによる臨床データセットの凝縮の改善
- Authors: Pafue Christy Nganjimi, Andrew Soltan, Danielle Belgrave, Lei Clifton, David A. Clifton, Anshul Thakur,
- Abstract要約: State-of-the-art data condensation (DC)は、プライバシを保存する合成データセットの作成を可能にする。
DC法は、実データおよび合成データに基づいて訓練されたモデルのトレーニングダイナミクスを整列させることにより、合成データを監督する。
これらの制約に対処するため、全SGD軌道をスムーズで低損失なパラメトリックサロゲートに置き換える。
これらのモード接続経路は、勾配を安定化し、収束を加速し、密度の高い軌道記憶の必要性を排除する、ノイズフリーで低曲率の監視信号を提供する。
- 参考スコア(独自算出の注目度): 15.665823714894605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset condensation (DC) enables the creation of compact, privacy-preserving synthetic datasets that can match the utility of real patient records, supporting democratised access to highly regulated clinical data for developing downstream clinical models. State-of-the-art DC methods supervise synthetic data by aligning the training dynamics of models trained on real and those trained on synthetic data, typically using full stochastic gradient descent (SGD) trajectories as alignment targets; however, these trajectories are often noisy, high-curvature, and storage-intensive, leading to unstable gradients, slow convergence, and substantial memory overhead. We address these limitations by replacing full SGD trajectories with smooth, low-loss parametric surrogates, specifically quadratic B\'ezier curves that connect the initial and final model states from real training trajectories. These mode-connected paths provide noise-free, low-curvature supervision signals that stabilise gradients, accelerate convergence, and eliminate the need for dense trajectory storage. We theoretically justify B\'ezier-mode connections as effective surrogates for SGD paths and empirically show that the proposed method outperforms state-of-the-art condensation approaches across five clinical datasets, yielding condensed datasets that enable clinically effective model development.
- Abstract(参考訳): Dataset Condensation (DC)は、実際の患者記録の実用性に合わせて、コンパクトでプライバシ保護された合成データセットの作成を可能にし、下流臨床モデルを開発するための高度に規制された臨床データへの民主化アクセスをサポートする。
State-of-the-the-art DC法は、合成データに基づいて訓練されたモデルと、合成データに基づいて訓練されたモデルのトレーニングダイナミクス(典型的には、完全な確率勾配降下(SGD)軌道をアライメントターゲットとする)を調整することによって、合成データを監督するが、これらのトラジェクトリはしばしばノイズが多く、高い曲率、ストレージ集約であり、不安定な勾配、緩やかな収束、かなりのメモリオーバーヘッドをもたらす。
これらの制限に対処するため、全SGD軌道をスムーズで低損失なパラメトリックサロゲート、特に実訓練軌道から初期モデル状態と最終モデル状態を結ぶ二次的B\'ezier曲線に置き換える。
これらのモード接続経路は、勾配を安定化し、収束を加速し、密度の高い軌道記憶の必要性を排除する、ノイズフリーで低曲率の監視信号を提供する。
理論的にB\'ezier-mode接続をSGDパスの効果的なサロゲートとして正当化し,提案手法が5つの臨床データセットにまたがる最先端の凝縮アプローチより優れており,臨床的に有効なモデル開発を可能にする凝縮データセットが得られることを実証的に示す。
関連論文リスト
- Grad-CL: Source Free Domain Adaptation with Gradient Guided Feature Disalignment [3.2371089062298317]
Grad-CLは、新しいソースフリーなドメイン適応フレームワークである。
ソースデータへのアクセスを必要とせずにセグメンテーションのパフォーマンスに適応する。
最先端の教師なしおよびソースフリーなドメイン適応手法より優れています。
論文 参考訳(メタデータ) (2025-09-12T10:51:46Z) - Latent Space Synergy: Text-Guided Data Augmentation for Direct Diffusion Biomedical Segmentation [2.4912767911151015]
テキスト誘導合成データ生成と効率的な拡散ベースセグメンテーションを組み合わせたフレームワークであるSynDiffを提案する。
本手法では, テキスト条件の塗布により, 臨床的にリアルな合成ポリープを生成するために, 潜時拡散モデルを用いている。
CVC-ClinicDBでは、SynDiffは96.4%のDiceと92.9%のIoUを達成した。
論文 参考訳(メタデータ) (2025-07-21T08:15:17Z) - Trajectory Consistency Distillation: Improved Latent Consistency Distillation by Semi-Linear Consistency Function with Trajectory Mapping [75.72212215739746]
軌道整合性蒸留(TCD)は、軌道整合性と戦略的サンプリングを含む。
TCDは低NFEで画像品質を著しく向上させるが、教師モデルと比較してより詳細な結果が得られる。
論文 参考訳(メタデータ) (2024-02-29T13:44:14Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - COVI-AgentSim: an Agent-based Model for Evaluating Methods of Digital
Contact Tracing [68.68882022019272]
COVI-AgentSimは、ウイルス学、病気の進行、社会的接触ネットワーク、移動パターンに基づくエージェントベースのコンパートメンタルシミュレータである。
1)バイナリテスト結果に基づいてバイナリレコメンデーションを割り当てる標準バイナリコンタクトトレース (BCT) と,2) 多様な特徴に基づいてグレードレベルのレコメンデーションを割り当てる特徴ベースコンタクトトレース (FCT) のルールベースの手法である。
論文 参考訳(メタデータ) (2020-10-30T00:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。