論文の概要: Fine-tuning a vision-language model for fracture-surface morphology recognition
- arxiv url: http://arxiv.org/abs/2605.07145v1
- Date: Fri, 08 May 2026 02:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.748764
- Title: Fine-tuning a vision-language model for fracture-surface morphology recognition
- Title(参考訳): き裂表面形態認識のための視覚言語モデル
- Authors: Quanliang Liu, Jungtaek Kim, Kangwook Lee, Hyunseok Oh,
- Abstract要約: 13,168画像のキュレートデータセットを用いて, き裂面画像解析のためのオープンソースのビジョン言語モデル(VLM)を微調整した。
結果として得られたスペシャリストモデルは、手動で注釈付けされた100のベンチマークで、フラグシップのプロプライエタリなマルチモーダルモデルを上回っている。
本稿では, 破壊特異的な視覚的精度とより広いマルチモーダル推論を組み合わせ, 自律フラクトログラフィーのためのファインチューニングモデルとプロプライエタリモデルの統合利用について論じる。
- 参考スコア(独自算出の注目度): 20.872357530075153
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language models (VLMs) have shown strong potential for scientific image understanding, but general-purpose models often lack the domain-specific visual knowledge required for reliable materials characterization. In this work, we fine-tuned an open-source VLM (Qwen3-VL-32B-Instruct) for fracture-surface image analysis using a curated dataset of 13,168 open-source, literature-mined fracture-surface images. Morphology annotations were generated by GPT-5.2-Reasoning (high) from both the images and relevant excerpts of their source papers, and the dataset was further enriched with targeted manual collection and rotation-based augmentation. The resulting specialist model outperforms flagship proprietary multimodal models on a benchmark of 100 manually annotated images. It achieves a precision of 0.92, compared to 0.35 for the base Qwen3-VL-32B-Instruct, 0.58 for GPT-5.5-Reasoning (high), and 0.78 for Gemini 3.1 Pro-Reasoning (high). Dataset ablations show that manual collection of rare-feature images and augmentation via image rotation are both beneficial to improve recognition of less common fracture morphology features. We further discuss integrated use of the fine-tuned model with proprietary models to combine fracture-specific visual accuracy with broader multimodal reasoning for autonomous fractography. Although focused on fracture-surface images, this work demonstrates how VLMs can be adapted through targeted collection and fine-tuning on novel feature images to recognize those features and support downstream decision-making in autonomous microscopy workflows.
- Abstract(参考訳): 視覚言語モデル(VLM)は、科学的イメージ理解に強い可能性を示してきたが、汎用モデルは、信頼できる資料のキャラクタリゼーションに必要な、ドメイン固有の視覚知識を欠いていることが多い。
本研究では,13,168個のオープンソースの文献によるき裂面画像を用いて,き裂面画像解析のためのオープンソースのVLM(Qwen3-VL-32B-Instruct)を微調整した。
GPT-5.2-Reasoning (high) によって、画像とソース文書の関連する抜粋の両方からモルフォロジーアノテーションが生成され、データセットはターゲット手動収集と回転に基づく拡張によってさらに強化された。
結果として得られたスペシャリストモデルは、手動で注釈付けされた100のベンチマークで、フラグシップのプロプライエタリなマルチモーダルモデルを上回っている。
Qwen3-VL-32B-インストラクタでは0.35、GPT-5.5-Reasoning(ハイ)では0.58、Gemini 3.1 Pro-Reasoning(ハイ)では0.78である。
データセットの短縮は、まれな画像の手作業による収集と、画像回転による増大はどちらも、より一般的な骨折形態の特徴の認識を改善するのに有用であることを示している。
さらに, 破壊特異的な視覚的精度とより広いマルチモーダル推論を組み合わせ, 自律フラクトログラフィーのためのファインチューニングモデルとプロプライエタリモデルの統合について検討する。
フラクチャー表面の画像に焦点が当てられているが、この研究は、VLMがターゲットとなるコレクションや新しい特徴画像の微調整によってどのように適応できるかを示し、これらの特徴を認識し、自律的な顕微鏡ワークフローにおいて下流の意思決定をサポートする。
関連論文リスト
- Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [36.59100450109841]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-01-23T18:58:33Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。