論文の概要: Estimating 2D Keypoints of Surgical Tools Using Vision-Language Models with Low-Rank Adaptation
- arxiv url: http://arxiv.org/abs/2508.20830v1
- Date: Thu, 28 Aug 2025 14:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.449764
- Title: Estimating 2D Keypoints of Surgical Tools Using Vision-Language Models with Low-Rank Adaptation
- Title(参考訳): 低ランク適応型視覚言語モデルを用いた手術器具の2次元キーポイント推定
- Authors: Krit Duangprom, Tryphon Lambrou, Binod Bhattarai,
- Abstract要約: 本稿では,低ランク調整(LoRA)技術を用いて視覚言語モデル(VLM)を微調整することで,手術器具の2次元キーポイントエスティマオンのための新しいパイプラインを提案する。
インストラクションチューニングデータセットを作成するためのプロンプトを慎重に設計し、視覚的特徴をセマンティックなキーポイント記述と整合させるために使用する。
実験結果から,2段階の微調整により,適応型VLMはベースラインモデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 7.606609210844433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel pipeline for 2D keypoint estima- tion of surgical tools by leveraging Vision Language Models (VLMs) fine- tuned using a low rank adjusting (LoRA) technique. Unlike traditional Convolutional Neural Network (CNN) or Transformer-based approaches, which often suffer from overfitting in small-scale medical datasets, our method harnesses the generalization capabilities of pre-trained VLMs. We carefully design prompts to create an instruction-tuning dataset and use them to align visual features with semantic keypoint descriptions. Experimental results show that with only two epochs of fine tuning, the adapted VLM outperforms the baseline models, demonstrating the ef- fectiveness of LoRA in low-resource scenarios. This approach not only improves keypoint detection performance, but also paves the way for future work in 3D surgical hands and tools pose estimation.
- Abstract(参考訳): 本稿では,低ランク調整(LoRA)技術を用いて視覚言語モデル(VLM)を微調整することで,手術器具の2次元キーポイント推定のための新しいパイプラインを提案する。
従来の畳み込みニューラルネットワーク(CNN)やトランスフォーマーベースのアプローチと異なり、小規模な医療データセットの過度な適合に悩まされることが多い。
インストラクションチューニングデータセットを作成するためのプロンプトを慎重に設計し、視覚的特徴をセマンティックなキーポイント記述と整合させるために使用する。
実験結果から, 微調整の2つの時代において, 適応型VLMは低リソースシナリオにおけるLoRAのエフェクト効果を実証し, ベースラインモデルよりも優れた性能を示した。
このアプローチはキーポイント検出性能を向上するだけでなく、3D手術の手とツールによる将来の作業の道を開く。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [8.090058633054852]
ビジュアライゼーション・ランゲージ・アクション(VLA)モデルに3次元幾何学的特徴を暗黙的に注入するプラグイン・アンド・プレイ・モジュールを導入する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Efficient Medical VIE via Reinforcement Learning [10.713109515157475]
ビジュアル情報抽出(VIE)は、構造化されていない文書イメージを、レポート分析やオンラインコンサルティングといった医療応用に不可欠な構造化フォーマットのような構造化フォーマットに変換する。
従来の手法はOCRと言語モデルに依存し、エンドツーエンドのマルチモーダルモデルは直接生成を提供する。
我々は、100の注釈付きサンプルを使用してこれらの課題に対処するために、Reinforcement Learning with Verifiable Rewards(RLVR)フレームワークをベースとしています。
論文 参考訳(メタデータ) (2025-06-16T11:10:25Z) - Training Frozen Feature Pyramid DINOv2 for Eyelid Measurements with Infinite Encoding and Orthogonal Regularization [0.9065034043031668]
眼のパラメータの正確な測定は、骨形成診断において重要であるが、手動、非一貫性の方法によって制限されている。
本研究は、SE-ResNet、EfficientNet、DINOv2といったディープラーニングモデルを用いて、スマートフォンで取得した画像を用いて、これらの測定を自動化する。
DINOv2は、特にモバイルデプロイメントに理想的な凍結条件下で、優れたスケーラビリティと堅牢性を示している。
論文 参考訳(メタデータ) (2025-04-01T08:06:08Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Utilizing Machine Learning and 3D Neuroimaging to Predict Hearing Loss: A Comparative Analysis of Dimensionality Reduction and Regression Techniques [0.0]
我々は,脳の灰白質3次元画像における難聴閾値を予測するための機械学習アプローチについて検討した。
第1フェーズでは,3次元CNNモデルを用いて,遅延空間への高次元入力を低減した。
第2フェーズでは、このモデルを使用して、リッチな機能への入力を削減した。
論文 参考訳(メタデータ) (2024-04-30T18:39:41Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Defect Classification in Additive Manufacturing Using CNN-Based Vision
Processing [76.72662577101988]
本稿では、まず、畳み込みニューラルネットワーク(CNN)を用いて、画像データセットの欠陥をAMから第2に正確に分類し、発達した分類モデルにアクティブラーニング技術を適用する。
これにより、トレーニングデータやトレーニングデータの生成に必要なデータのサイズを削減できる、ヒューマン・イン・ザ・ループ機構の構築が可能になる。
論文 参考訳(メタデータ) (2023-07-14T14:36:58Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。