論文の概要: Analysis of Transferability Estimation Metrics for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2508.16730v1
- Date: Fri, 22 Aug 2025 18:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.150143
- Title: Analysis of Transferability Estimation Metrics for Surgical Phase Recognition
- Title(参考訳): 外科的位相認識のための転写性評価指標の解析
- Authors: Prabhant Singh, Yiping Li, Yasmina Al Khalil,
- Abstract要約: 微調整された事前学習モデルは現代の機械学習の基盤となり、限られたラベル付きデータで実践者がハイパフォーマンスを達成できるようになった。
専門的アノテーションが特に時間がかかり費用がかかる外科的ビデオ解析では、下流タスクに最適な事前学習モデルを特定することが重要かつ困難である。
我々は,2つの多様なデータセット上で,LogME,H-Score,TransRateの3つの代表的な指標の総合ベンチマークを行った。
- 参考スコア(独自算出の注目度): 3.3285108719932555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pre-trained models has become a cornerstone of modern machine learning, allowing practitioners to achieve high performance with limited labeled data. In surgical video analysis, where expert annotations are especially time-consuming and costly, identifying the most suitable pre-trained model for a downstream task is both critical and challenging. Source-independent transferability estimation (SITE) offers a solution by predicting how well a model will fine-tune on target data using only its embeddings or outputs, without requiring full retraining. In this work, we formalize SITE for surgical phase recognition and provide the first comprehensive benchmark of three representative metrics, LogME, H-Score, and TransRate, on two diverse datasets (RAMIE and AutoLaparo). Our results show that LogME, particularly when aggregated by the minimum per-subset score, aligns most closely with fine-tuning accuracy; H-Score yields only weak predictive power; and TransRate often inverses true model rankings. Ablation studies show that when candidate models have similar performances, transferability estimates lose discriminative power, emphasizing the importance of maintaining model diversity or using additional validation. We conclude with practical guidelines for model selection and outline future directions toward domain-specific metrics, theoretical foundations, and interactive benchmarking tools.
- Abstract(参考訳): 微調整された事前学習モデルは現代の機械学習の基盤となり、限られたラベル付きデータで実践者がハイパフォーマンスを達成できるようになった。
専門的アノテーションが特に時間がかかり費用がかかる外科的ビデオ解析では、下流タスクに最適な事前学習モデルを特定することが重要かつ困難である。
ソース非依存の転送可能性推定(SITE)は、完全な再トレーニングを必要とせずに、その埋め込みや出力のみを使用して、モデルがターゲットデータにどれだけ精細にチューニングされるかを予測することによって、ソリューションを提供する。
本研究では,外科的位相認識のためのSITEを形式化し,2つの多様なデータセット(RAMIEとAutoLaparo)上で,LogME,H-Score,TransRateの3つの代表的な指標の総合的なベンチマークを行う。
以上の結果から,LogMEは最小サブセット当たりのスコアで集計した場合,特に微調整精度に最もよく一致し,H-Scoreは弱い予測力しか得られず,TransRateは真のモデルランキングを逆転することが多い。
アブレーション研究は、候補モデルに類似した性能がある場合、伝達可能性の推定は差別的なパワーを失い、モデルの多様性を維持することの重要性を強調したり、追加のバリデーションを使用することが示される。
モデル選択に関する実践的ガイドラインをまとめ、ドメイン固有のメトリクス、理論的基礎、インタラクティブなベンチマークツールの今後の方向性を概説する。
関連論文リスト
- Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - EEG Foundation Models: Progresses, Benchmarking, and Open Problems [10.447009984769819]
我々は、50の代表的なEEG基盤モデルをレビューし、その設計選択を統合された分類学的枠組みにまとめる。
9つのBCIパラダイムにまたがる13のEEGデータセットに対して、12のオープンソースファンデーションモデルと、競合するスペシャリストベースラインを評価します。
論文 参考訳(メタデータ) (2026-01-25T15:28:50Z) - Beyond Model Ranking: Predictability-Aligned Evaluation for Time Series Forecasting [18.018179328110048]
スペクトルコヒーレンスに基づく予測可能性整合診断フレームワークを提案する。
予測可能性ドリフト(predictability drift, 予測可能性ドリフト)の最初の体系的な証拠として, タスクの予測困難度が時間とともに急激に変化することを示す。
複雑なモデルは予測可能性の低いデータより優れているのに対し、線形モデルは予測可能なタスクに非常に効果的である。
論文 参考訳(メタデータ) (2025-09-27T02:56:06Z) - On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion [1.2703808802607108]
知識グラフ埋め込み(KGE)モデルは知識グラフ補完のために広く研究されている。
標準的な評価基準は、欠落した三重項を正確に予測するためのモデルを罰するクローズドワールドの仮定に依存している。
本稿では,大規模データセットFB-CVT-REVとFB+CVT-REVの4つの代表的なKGEモデルを包括的に評価する。
論文 参考訳(メタデータ) (2025-04-11T20:49:02Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [51.41246396610475]
本稿では,外部ツールを使わずにクローズドブック質問応答(QA)の性能を予測することを目的とする。
我々は、21の公開言語と3つのカスタムトレーニングされた大規模言語モデルの事前学習コーパスに対して、大規模な検索と意味解析を行う。
これらの基礎の上に構築されたSMI(Size-dependent Mutual Information)は,事前学習データの特徴を線形に相関させる情報理論の指標である。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Weakly supervised deep learning model with size constraint for prostate cancer detection in multiparametric MRI and generalization to unseen domains [0.90668179713299]
本モデルでは, 完全教師付きベースラインモデルにより, オンパー性能が向上することを示す。
また、未確認データドメインでテストした場合、完全に教師付きモデルと弱い教師付きモデルの両方のパフォーマンス低下も観察する。
論文 参考訳(メタデータ) (2024-11-04T12:24:33Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Towards Estimating Transferability using Hard Subsets [25.86053764521497]
HASTEは、ターゲットデータのより厳しいサブセットのみを用いて、ソースモデルの特定のターゲットタスクへの転送可能性を推定する新しい戦略である。
HASTEは既存の転送可能性測定値と組み合わせて信頼性を向上させることができることを示す。
複数のソースモデルアーキテクチャ、ターゲットデータセット、トランスファー学習タスクにまたがる実験結果から、HASTEの修正されたメトリクスは、一貫して、あるいは、アートトランスファービリティーメトリクスの状態と同等であることが示された。
論文 参考訳(メタデータ) (2023-01-17T14:50:18Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。