論文の概要: Adapting General-Purpose Foundation Models for X-ray Ptychography in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2511.02503v1
- Date: Tue, 04 Nov 2025 11:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.97766
- Title: Adapting General-Purpose Foundation Models for X-ray Ptychography in Low-Data Regimes
- Title(参考訳): 低データレジームにおけるX線断層撮影のための汎用基礎モデルの適用
- Authors: Robinson Umeike, Neil Getty, Yin Xiangyu, Yi Jiang,
- Abstract要約: PtychoBenchはptychographic analysisの新しいベンチマークである。
我々は、SFT(Supervised Fine-Tuning)とICL(In-Context Learning)の2つの専門化戦略を比較した。
その結果,最適な特殊化経路はタスク依存であることが判明した。
- 参考スコア(独自算出の注目度): 8.748610895973075
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The automation of workflows in advanced microscopy is a key goal where foundation models like Language Models (LLMs) and Vision-Language Models (VLMs) show great potential. However, adapting these general-purpose models for specialized scientific tasks is critical, and the optimal domain adaptation strategy is often unclear. To address this, we introduce PtychoBench, a new multi-modal, multi-task benchmark for ptychographic analysis. Using this benchmark, we systematically compare two specialization strategies: Supervised Fine-Tuning (SFT) and In-Context Learning (ICL). We evaluate these strategies on a visual artifact detection task with VLMs and a textual parameter recommendation task with LLMs in a data-scarce regime. Our findings reveal that the optimal specialization pathway is task-dependent. For the visual task, SFT and ICL are highly complementary, with a fine-tuned model guided by context-aware examples achieving the highest mean performance (Micro-F1 of 0.728). Conversely, for the textual task, ICL on a large base model is the superior strategy, reaching a peak Micro-F1 of 0.847 and outperforming a powerful "super-expert" SFT model (0-shot Micro-F1 of 0.839). We also confirm the superiority of context-aware prompting and identify a consistent contextual interference phenomenon in fine-tuned models. These results, benchmarked against strong baselines including GPT-4o and a DINOv3-based classifier, offer key observations for AI in science: the optimal specialization path in our benchmark is dependent on the task modality, offering a clear framework for developing more effective science-based agentic systems.
- Abstract(参考訳): 高度な顕微鏡におけるワークフローの自動化は、言語モデル(LLM)やビジョンランゲージモデル(VLM)といった基礎モデルが大きな可能性を示す重要な目標である。
しかし、これらの汎用モデルを専門的な科学的タスクに適用することは極めて重要であり、最適領域適応戦略はしばしば不明確である。
そこで我々はPtychoBenchという新しいマルチモーダル・マルチタスク・ベンチマークを紹介した。
このベンチマークを用いて,教師付きファインチューニング(SFT)とインコンテキスト学習(ICL)の2つの特殊化戦略を体系的に比較した。
本稿では,VLMを用いた視覚的アーティファクト検出タスクとLLMを用いたテキストパラメータ推薦タスクをデータスカース方式で評価する。
その結果,最適な特殊化経路はタスク依存であることが判明した。
視覚的タスクでは、SFTとICLは極めて相補的であり、コンテキスト認識の例で導かれる微調整モデルで最高の平均性能を達成する(Micro-F1: 0.728)。
逆に、テキストタスクでは、大きなベースモデル上のICLは、0.847のMicro-F1に到達し、強力な"super-expert" SFTモデル(0.839のMicro-F1)を上回る優れた戦略である。
また、文脈認識の優位性を確認し、微調整モデルにおける一貫した文脈干渉現象を同定する。
これらの結果は、GPT-4oやDINOv3ベースの分類器などの強力なベースラインに対してベンチマークされ、科学におけるAIの重要な観察を提供する。
関連論文リスト
- Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。
RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文 参考訳(メタデータ) (2025-05-03T04:58:29Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance [0.32985979395737774]
本稿では,ドメイン固有タスクのための細調整型大規模言語モデル (LLM) の詳細な解析を行う。
ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略ではないことが分かりました。
我々は、Phi-3-Miniのような小さなモデルが、どのようにして最先端の結果が得られるかを実証する。
論文 参考訳(メタデータ) (2024-10-01T22:35:56Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。