論文の概要: Geometric Characterisation and Structured Trajectory Surrogates for Clinical Dataset Condensation
- arxiv url: http://arxiv.org/abs/2604.21638v1
- Date: Thu, 23 Apr 2026 12:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.504547
- Title: Geometric Characterisation and Structured Trajectory Surrogates for Clinical Dataset Condensation
- Title(参考訳): 臨床データセット凝縮のための幾何学的特徴化と構造的トラジェクトリ・サロゲート
- Authors: Pafue Christy Nganjimi, Andrew Soltan, Danielle Belgrave, Lei Clifton, David Clifton, Anshul Thakur,
- Abstract要約: トラジェクトリマッチング(TM)は、実データ上でのトレーニング中に観測されたモデルパラメータの変化を用いて合成データを監督する、広く使われている凝縮法である。
固定された合成データセットは、そのような訓練によって引き起こされるパラメータの変化の限られた範囲しか再現できないことを示す。
本稿では,SGDトラジェクトリを2次ベジエトラジェクトリサロゲートに置き換えるBezier Trajectory Matching (BTM)を提案する。
- 参考スコア(独自算出の注目度): 1.6261700844888172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset condensation constructs compact synthetic datasets that retain the training utility of large real-world datasets, enabling efficient model development and potentially supporting downstream research in governed domains such as healthcare. Trajectory matching (TM) is a widely used condensation approach that supervises synthetic data using changes in model parameters observed during training on real data, yet the structure of this supervision signal remains poorly understood. In this paper, we provide a geometric characterisation of trajectory matching, showing that a fixed synthetic dataset can only reproduce a limited span of such training-induced parameter changes. When the resulting supervision signal is spectrally broad, this creates a conditional representability bottleneck. Motivated by this mismatch, we propose Bezier Trajectory Matching (BTM), which replaces SGD trajectories with quadratic Bezier trajectory surrogates between initial and final model states. These surrogates are optimised to reduce average loss along the path while replacing broad SGD-derived supervision with a more structured, lower-rank signal that is better aligned with the optimisation constraints of a fixed synthetic dataset, and they substantially reduce trajectory storage. Experiments on five clinical datasets demonstrate that BTM consistently matches or improves upon standard trajectory matching, with the largest gains in low-prevalence and low-synthetic-budget settings. These results indicate that effective trajectory matching depends on structuring the supervision signal rather than reproducing stochastic optimisation paths.
- Abstract(参考訳): データセットの凝縮は、大規模な実世界のデータセットのトレーニングユーティリティを保持するコンパクトな合成データセットを構築し、効率的なモデル開発を可能にし、医療などの統治領域における下流の研究を支援する可能性がある。
トラジェクトリマッチング(TM)は、実データ上でのトレーニング中に観測されたモデルパラメータの変化を用いて合成データを監督する、広く使われている凝縮法である。
本稿では, 軌道マッチングの幾何学的特徴付けを行い, 固定された合成データセットは, このような訓練によるパラメータ変化の限られた範囲しか再現できないことを示す。
結果の監視信号がスペクトル的に広くなると、条件付き表現可能性ボトルネックが生じる。
このミスマッチに動機づけられたBTM(Bezier Trajectory Matching)は,初期モデル状態と最終モデル状態の間の2次Bezier trajectory surrogateをSGDトラジェクトリに置き換える。
これらのサロゲートは、広いSGDによる監視を、固定された合成データセットの最適化制約に適合したより構造化された低ランク信号に置き換えつつ、経路に沿った平均損失を減らすように最適化され、軌道記憶を著しく低減する。
5つの臨床データセットの実験では、BTMは標準軌跡マッチングと一貫して一致または改善し、低頻度および低合成・予算設定において最大の利得を示す。
これらの結果から,効率的な軌道マッチングは,確率的最適化経路を再現するよりも,監視信号の構造化に依存することが示唆された。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis [54.39598154430305]
本稿では,ペアビュー間の決定論的変換を直接学習するデータ間フローマッチングフレームワークを提案する。
PDG-FMは、事前訓練された拡散モデルの確率密度測定値から導かれる測地的補間剤を用いて流れの軌跡を制約する。
これらの結果は、一貫した新しいビュー生成のための決定論的フローマッチングにデータ依存の幾何正規化を組み込むことの利点を強調している。
論文 参考訳(メタデータ) (2026-03-01T09:30:11Z) - Silent Inconsistency in Data-Parallel Full Fine-Tuning: Diagnosing Worker-Level Optimization Misalignment [27.352639822596146]
クロスワーカーの損失と勾配のばらつきは、従来の監視信号では見えない。
本稿では,標準パイプラインで容易に利用できるトレーニング信号を用いて,作業者レベルの一貫性を定量化する,モデルに依存しない診断フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T04:42:30Z) - Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - Improving Clinical Dataset Condensation with Mode Connectivity-based Trajectory Surrogates [15.665823714894605]
State-of-the-art data condensation (DC)は、プライバシを保存する合成データセットの作成を可能にする。
DC法は、実データおよび合成データに基づいて訓練されたモデルのトレーニングダイナミクスを整列させることにより、合成データを監督する。
これらの制約に対処するため、全SGD軌道をスムーズで低損失なパラメトリックサロゲートに置き換える。
これらのモード接続経路は、勾配を安定化し、収束を加速し、密度の高い軌道記憶の必要性を排除する、ノイズフリーで低曲率の監視信号を提供する。
論文 参考訳(メタデータ) (2025-10-07T11:22:27Z) - Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation [13.83897333268682]
宇宙船のポース推定は、ランデブー、ドッキング、軌道上のドッキングのような自律的な宇宙活動の基本的な能力である。
既存のドメイン適応アプローチは、この問題を軽減することを目的としているが、ラベル付きターゲットサンプルの少ない数が利用できる場合、しばしば性能が低下する。
本稿では,SPEキーポイント回帰に適したSDA(Supervised Domain Adaptation)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T08:03:05Z) - Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。