論文の概要: SurgicalGPT: End-to-End Language-Vision GPT for Visual Question
Answering in Surgery
- arxiv url: http://arxiv.org/abs/2304.09974v1
- Date: Wed, 19 Apr 2023 21:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:06:01.647442
- Title: SurgicalGPT: End-to-End Language-Vision GPT for Visual Question
Answering in Surgery
- Title(参考訳): surgerygpt : 視覚質問応答のためのエンド・ツー・エンド言語ビジョンgpt
- Authors: Lalithkumar Seenivasan, Mobarakol Islam, Gokul Kannan and Hongliang
Ren
- Abstract要約: 我々は、GPT2モデルを拡張して視覚入力(画像)を含むエンドツーエンドのトレーニング可能な言語ビジョンGPTモデルを開発する。
LV-GPTモデルは、2つの公開可能な手術用VQAデータセットにおいて、他の最先端のVQAモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.490603884631764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in GPT-based large language models (LLMs) are revolutionizing
natural language processing, exponentially increasing its use across various
domains. Incorporating uni-directional attention, these autoregressive LLMs can
generate long and coherent paragraphs. However, for visual question answering
(VQA) tasks that require both vision and language processing, models with
bi-directional attention or models employing fusion techniques are often
employed to capture the context of multiple modalities all at once. As GPT does
not natively process vision tokens, to exploit the advancements in GPT models
for VQA in robotic surgery, we design an end-to-end trainable Language-Vision
GPT (LV-GPT) model that expands the GPT2 model to include vision input (image).
The proposed LV-GPT incorporates a feature extractor (vision tokenizer) and
vision token embedding (token type and pose). Given the limitations of
unidirectional attention in GPT models and their ability to generate coherent
long paragraphs, we carefully sequence the word tokens before vision tokens,
mimicking the human thought process of understanding the question to infer an
answer from an image. Quantitatively, we prove that the LV-GPT model
outperforms other state-of-the-art VQA models on two publically available
surgical-VQA datasets (based on endoscopic vision challenge robotic scene
segmentation 2018 and CholecTriplet2021) and on our newly annotated dataset
(based on the holistic surgical scene dataset). We further annotate all three
datasets to include question-type annotations to allow sub-type analysis.
Furthermore, we extensively study and present the effects of token sequencing,
token type and pose embedding for vision tokens in the LV-GPT model.
- Abstract(参考訳): GPTベースの大規模言語モデル(LLM)の進歩は、自然言語処理に革命をもたらし、様々な領域でその使用を指数関数的に増加させている。
一方向の注意を組み込んだこれらの自己回帰LDMは、長いコヒーレントな段落を生成することができる。
しかしながら、視覚と言語処理の両方を必要とする視覚的質問応答(VQA)タスクでは、双方向の注意または融合技術を用いたモデルを用いて、複数のモーダルのコンテキストを同時にキャプチャすることが多い。
GPTは視覚トークンをネイティブに処理せず、ロボット手術におけるVQAのためのGPTモデルの進歩を利用するため、GPT2モデルを拡張して視覚入力(画像)を含むエンドツーエンドのトレーニング可能な言語ビジョンGPT(LV-GPT)モデルを設計する。
提案するLV-GPTには,特徴抽出器(ビジョントークン化器)と視覚トークン埋め込み(トークンタイプとポーズ)が組み込まれている。
GPTモデルにおける一方向の注意の限界とコヒーレントな長文を生成する能力を考えると、視覚トークンの前に単語トークンを注意深くシーケンスし、人間の思考過程を模倣して画像から答えを推測する。
lv-gptモデルは,手術用vqaデータセット(内視鏡的視覚課題ロボットシーンセグメンテーション2018とcholectriplet2021に基づく)と,新たにアノテーション付きデータセット(総合的な手術用シーンデータセットに基づく)で,他の最先端vqaモデルよりも優れていることを定量的に証明する。
さらに3つのデータセットに、サブタイプ分析を可能にする質問型アノテーションを含めるようアノテートする。
さらに, lv-gptモデルにおける視覚トークンに対するトークンシーケンシング, トークンタイプ, ポーズ埋め込みの効果を広く研究し, 提示する。
関連論文リスト
- ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework [47.58359136198136]
我々は、最新技術基盤モデルの統合と自動化を行うためにVisionGPTを導入する。
VisionGPTは一般化されたマルチモーダルフレームワーク上に構築されており、3つの重要な特徴を区別している。
本稿では,ビジョンGPTのアーキテクチャと能力について概説し,コンピュータビジョンの分野に革命をもたらす可能性を示す。
論文 参考訳(メタデータ) (2024-03-14T01:39:40Z) - Intensive Vision-guided Network for Radiology Report Generation [22.030289124516326]
医用画像エンコーダにおける多視点視覚知覚をシミュレートし統合するためのGIAモジュールを提案する。
また,複数モーダル信号を用いて正確な一致したレポートを生成する方法,すなわち,予測済みの単語を領域認識型視覚コンテンツと統合して次の単語予測を行う方法について検討する。
論文 参考訳(メタデータ) (2024-02-06T06:46:46Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Vision-and-Language Pretrained Models: A Survey [3.270244666687303]
本稿では,視覚言語事前学習モデルにおける主要な進歩について概説する。
まず、言語と視覚データエンコーディング法について論じ、次に主流のVLPM構造をコアコンテンツとして提示する。
論文 参考訳(メタデータ) (2022-04-15T07:33:06Z) - VC-GPT: Visual Conditioned GPT for End-to-End Generative
Vision-and-Language Pre-training [9.511101155155957]
視覚と言語による事前学習モデル(VLM)は、クロスモーダル領域において大きな成功を収めているが、そのほとんどは、事前学習に数百万の並列画像キャプチャーデータを必要とする。
本研究では,視覚前訓練モデル (CLIP-ViT) をエンコーダとして,言語前訓練モデル (GPT2) をデコーダとして利用することにより,生成前訓練の必要性を減らすことに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-30T04:44:54Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。