論文の概要: Can LLM-Generated Text Empower Surgical Vision-Language Pre-training?
- arxiv url: http://arxiv.org/abs/2604.18134v1
- Date: Mon, 20 Apr 2026 12:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.844123
- Title: Can LLM-Generated Text Empower Surgical Vision-Language Pre-training?
- Title(参考訳): LLMによる手術用ビジョンランゲージ事前トレーニングは可能か?
- Authors: Chengan Che, Chao Wang, Jiayuan Huang, Xinyue Chen, Luis C. Garcia-Peraza-Herrera,
- Abstract要約: textbfLIMEは、人間の自由大言語モデル(LLM)を用いたオープンアクセス手術ビデオから派生した大規模なマルチモーダルデータセットである。
textbfSurgLIMEはパラメータ効率のよいビジョンランゲージ事前学習フレームワークで、信頼性の高いクロスモーダルアライメントを学習するために設計されている。
- 参考スコア(独自算出の注目度): 10.452511741676437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in self-supervised learning have led to powerful surgical vision encoders capable of spatiotemporal understanding. However, extending these visual foundations to multi-modal reasoning tasks is severely bottlenecked by the prohibitive cost of expert textual annotations. To overcome this scalability limitation, we introduce \textbf{LIME}, a large-scale multi-modal dataset derived from open-access surgical videos using human-free, Large Language Model (LLM)-generated narratives. While LIME offers immense scalability, unverified generated texts may contain errors, including hallucinations, that could potentially lead to catastrophically degraded pre-trained medical priors in standard contrastive pipelines. To mitigate this, we propose \textbf{SurgLIME}, a parameter-efficient Vision-Language Pre-training (VLP) framework designed to learn reliable cross-modal alignments using noisy narratives. SurgLIME preserves foundational medical priors using a LoRA-adapted dual-encoder architecture and introduces an automated confidence estimation mechanism that dynamically down-weights uncertain text during contrastive alignment. Evaluations on the AutoLaparo and Cholec80 benchmarks show that SurgLIME achieves competitive zero-shot cross-modal alignment while preserving the robust linear probing performance of the visual foundation model. Dataset, code, and models are publicly available at \href{https://github.com/visurg-ai/SurgLIME}{https://github.com/visurg-ai/SurgLIME}.
- Abstract(参考訳): 近年の自己教師型学習の進歩は、時空間的理解が可能な強力な手術用視覚エンコーダを生み出している。
しかし、これらの視覚的基礎をマルチモーダル推論タスクに拡張することは、専門家のテキストアノテーションの禁止コストによって著しくボトルネックとなる。
このスケーラビリティの限界を克服するために,人間の自由なLarge Language Model (LLM) を用いたオープンアクセス手術ビデオから得られた大規模マルチモーダルデータセットである \textbf{LIME} を紹介する。
LIMEは膨大なスケーラビリティを提供するが、未検証のテキストには幻覚を含むエラーが含まれている可能性がある。
これを軽減するために,パラメータ効率のよいビジョンランゲージ事前学習(VLP)フレームワークである‘textbf{SurgLIME} を提案する。
SurgLIMEは、LoRAに適応したデュアルエンコーダアーキテクチャを使用して基礎的な医学的先行情報を保存し、コントラストアライメント中に不確実テキストを動的にダウンウェイトする自動信頼推定機構を導入する。
AutoLaparo と Cholec80 ベンチマークの評価では、SurgLIME は、視覚基盤モデルの頑健な線形探索性能を維持しながら、競合するゼロショットのクロスモーダルアライメントを実現している。
データセット、コード、モデルは \href{https://github.com/visurg-ai/SurgLIME}{https://github.com/visurg-ai/SurgLIME} で公開されている。
関連論文リスト
- HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration [8.192590936983347]
LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:35:40Z) - Tripartite-GraphRAG via Plugin Ontologies [0.011161220996480647]
大規模言語モデル(LLM)は、様々な領域で顕著な能力を示してきたが、知識集約的なタスクに苦戦している。
主な制限は、幻覚の傾向、ソーストレーサビリティの欠如(証明)、タイムリーな知識更新における課題である。
本稿では,LLMと三部構造知識グラフ表現を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T10:43:35Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。