論文の概要: PitVQA++: Vector Matrix-Low-Rank Adaptation for Open-Ended Visual Question Answering in Pituitary Surgery
- arxiv url: http://arxiv.org/abs/2502.14149v1
- Date: Wed, 19 Feb 2025 23:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:22.561774
- Title: PitVQA++: Vector Matrix-Low-Rank Adaptation for Open-Ended Visual Question Answering in Pituitary Surgery
- Title(参考訳): PitVQA++:下垂体手術における開眼型視覚質問応答に対するベクトル行列-Low-Rank適応
- Authors: Runlong He, Danyal Z. Khan, Evangelos B. Mazomenos, Hani J. Marcus, Danail Stoyanov, Matthew J. Clarkson, Mobarakol Islam,
- Abstract要約: 視覚的質問応答(VQA)における視覚言語モデル(VLM)は、術中意思決定を強化し、直感的な相互作用を促進し、外科教育を著しく進歩させるユニークな機会を提供する。
外科的VQAのためのVLMの開発は、限られたデータセットと、事前訓練された重量の完全な微調整中に過剰適合と破滅的な忘れ込みのリスクのために困難である。
この研究は、開封されたPitVQAデータセットと、下垂体手術にGPT-2を適用するための革新的なVLM微調整アプローチを取り入れたPitVQAを紹介する。
- 参考スコア(独自算出の注目度): 16.957689975841113
- License:
- Abstract: Vision-Language Models (VLMs) in visual question answering (VQA) offer a unique opportunity to enhance intra-operative decision-making, promote intuitive interactions, and significantly advancing surgical education. However, the development of VLMs for surgical VQA is challenging due to limited datasets and the risk of overfitting and catastrophic forgetting during full fine-tuning of pretrained weights. While parameter-efficient techniques like Low-Rank Adaptation (LoRA) and Matrix of Rank Adaptation (MoRA) address adaptation challenges, their uniform parameter distribution overlooks the feature hierarchy in deep networks, where earlier layers, that learn general features, require more parameters than later ones. This work introduces PitVQA++ with an open-ended PitVQA dataset and vector matrix-low-rank adaptation (Vector-MoLoRA), an innovative VLM fine-tuning approach for adapting GPT-2 to pituitary surgery. Open-Ended PitVQA comprises around 101,803 frames from 25 procedural videos with 745,972 question-answer sentence pairs, covering key surgical elements such as phase and step recognition, context understanding, tool detection, localization, and interactions recognition. Vector-MoLoRA incorporates the principles of LoRA and MoRA to develop a matrix-low-rank adaptation strategy that employs vector ranking to allocate more parameters to earlier layers, gradually reducing them in the later layers. Our approach, validated on the Open-Ended PitVQA and EndoVis18-VQA datasets, effectively mitigates catastrophic forgetting while significantly enhancing performance over recent baselines. Furthermore, our risk-coverage analysis highlights its enhanced reliability and trustworthiness in handling uncertain predictions. Our source code and dataset is available at~\url{https://github.com/HRL-Mike/PitVQA-Plus}.
- Abstract(参考訳): 視覚的質問応答(VQA)における視覚言語モデル(VLM)は、術中意思決定を強化し、直感的な相互作用を促進し、外科教育を著しく推進するユニークな機会を提供する。
しかし, 外科用VQA用VLMの開発は, 限られたデータセットと, トレーニング済み重量の完全な微調整中に過度に適合し, 破滅的な忘れ込みのリスクのため, 困難である。
Low-Rank Adaptation (LoRA) や Matrix of Rank Adaptation (MoRA) のようなパラメータ効率のよい手法は適応の問題に対処するが、それらの一様パラメータ分布はディープネットワークにおける特徴階層を見落としている。
本研究は,GPT-2を下垂体手術に適用するための革新的VLMファインチューニングアプローチである,オープンエンドのPitVQAデータセットとベクトル行列-低ランク適応(Vector-MoLoRA)を備えたPitVQA++を紹介する。
Open-Ended PitVQAは、25のプロシージャビデオから約101,803フレームで構成され、745,972の質問文ペアを持ち、フェーズとステップ認識、コンテキスト理解、ツール検出、ローカライゼーション、インタラクション認識といった重要な外科的要素をカバーしている。
Vector-MoLoRAにはLoRAとMoRAの原則が組み込まれており、ベクターランキングを利用して、以前の層により多くのパラメータを割り当てるマトリックス低ランク適応戦略が開発されている。
我々のアプローチはOpen-Ended PitVQAとEndoVis18-VQAデータセットに基づいて検証され、破滅的な忘れを効果的に軽減し、最近のベースラインよりも性能を大幅に向上させる。
さらに,リスクカバレッジ分析では,不確実な予測に対処する上での信頼性と信頼性の向上が強調されている。
ソースコードとデータセットは~\url{https://github.com/HRL-Mike/PitVQA-Plus}で利用可能です。
関連論文リスト
- Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model [17.41557655783514]
ロボット内視鏡手術(DARES)におけるDepth Anythingの導入
DAM V2における新しい適応手法であるローランド適応(LoRA)は、自己教師付き単眼深度推定を行う。
近年の最先端の自己監督型単分子深度推定法よりも, 新たな手法が優れていることが検証された。
論文 参考訳(メタデータ) (2024-08-30T17:35:06Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition [17.412985505938508]
内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。
本稿では,アダプティブ・パーミューテーション(Adaptive Permutation, HAAP)を用いた階層的注意自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T06:41:43Z) - Enhancing Adversarial Robustness of Vision-Language Models through Low-Rank Adaptation [15.065302021892318]
視覚言語モデル(VLM)は、人工知能(AGI)の発展に重要な役割を果たす
セキュリティ問題への対処は、VLMにとって最も重要な課題の1つとして浮上している。
我々は,低ランク適応に基づくtextbftextitAdvLoRA というパラメータ効率の高い逆適応手法を提案する。
論文 参考訳(メタデータ) (2024-04-20T17:19:54Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。