論文の概要: Rethinking Surgical Captioning: End-to-End Window-Based MLP Transformer
Using Patches
- arxiv url: http://arxiv.org/abs/2207.00113v1
- Date: Thu, 30 Jun 2022 21:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 13:28:54.310981
- Title: Rethinking Surgical Captioning: End-to-End Window-Based MLP Transformer
Using Patches
- Title(参考訳): 手術用キャプション再考:パッチを用いた終端ウィンドウベースMLPトランス
- Authors: Mengya Xu and Mobarakol Islam and Hongliang Ren
- Abstract要約: 外科的キャプションは外科的指導予測と報告生成において重要な役割を担っている。
ほとんどのキャプションモデルは依然として、地域的特徴を抽出するために重い計算対象検出器や特徴抽出器に依存している。
パッチベースのシフトウインドウ手法を用いて,エンド・ツー・エンド検出器と特徴抽出自由キャプションモデルの設計を行う。
- 参考スコア(独自算出の注目度): 20.020356453279685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical captioning plays an important role in surgical instruction
prediction and report generation. However, the majority of captioning models
still rely on the heavy computational object detector or feature extractor to
extract regional features. In addition, the detection model requires additional
bounding box annotation which is costly and needs skilled annotators. These
lead to inference delay and limit the captioning model to deploy in real-time
robotic surgery. For this purpose, we design an end-to-end detector and feature
extractor-free captioning model by utilizing the patch-based shifted window
technique. We propose Shifted Window-Based Multi-Layer Perceptrons Transformer
Captioning model (SwinMLP-TranCAP) with faster inference speed and less
computation. SwinMLP-TranCAP replaces the multi-head attention module with
window-based multi-head MLP. Such deployments primarily focus on image
understanding tasks, but very few works investigate the caption generation
task. SwinMLP-TranCAP is also extended into a video version for video
captioning tasks using 3D patches and windows. Compared with previous
detector-based or feature extractor-based models, our models greatly simplify
the architecture design while maintaining performance on two surgical datasets.
The code is publicly available at
https://github.com/XuMengyaAmy/SwinMLP_TranCAP.
- Abstract(参考訳): 外科的キャプションは外科的指導予測と報告生成に重要な役割を果たしている。
しかし、キャプションモデルの大多数は、地域的特徴を抽出するために重い計算対象検出器や特徴抽出器に依存している。
さらに、検出モデルは、コストがかかり、熟練したアノテーションを必要とする追加のバウンディングボックスアノテーションを必要とする。
これにより推論が遅れ、リアルタイムでロボット手術を行うためのキャプションモデルが制限される。
そこで本研究では,パッチベースのシフトウインドウ手法を用いて,エンドツーエンド検出と特徴抽出自由キャプションモデルの設計を行う。
高速な推論速度と少ない計算量を有するシフトウィンドウベースマルチ層パーセプトロントランスフォーマーキャプタキャプタモデル(SwinMLP-TranCAP)を提案する。
SwinMLP-TranCAPはマルチヘッドアテンションモジュールをウィンドウベースのマルチヘッドMLPに置き換える。
このような展開は主に画像理解タスクに焦点を当てているが、キャプション生成タスクを調査する作業はほとんどない。
SwinMLP-TranCAPは3Dパッチとウィンドウを使ったビデオキャプションタスクにも拡張されている。
従来の検出器ベースモデルや特徴抽出モデルと比較して,2つの手術データセットの性能を維持しつつ,アーキテクチャ設計を大幅に単純化した。
コードはhttps://github.com/XuMengyaAmy/SwinMLP_TranCAPで公開されている。
関連論文リスト
- Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Sliding Window FastEdit: A Framework for Lesion Annotation in Whole-body
PET Images [24.7560446107659]
深層学習は、医療画像における病気の正確なセグメンテーションに革命をもたらした。
この要件は全身ポジトロン断層撮影(PET)の課題であり、身体全体に病変が散在している。
SW-FastEditは対話型セグメンテーションフレームワークで、voxelwiseアノテーションの代わりにほんの数クリックでラベル付けを高速化する。
我々のモデルは、AutoPETデータセット上の既存の非スライドウィンドウ対話モデルより優れており、以前は見えなかったHECKTORデータセットに一般化する。
論文 参考訳(メタデータ) (2023-11-24T13:45:58Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Learning CLIP Guided Visual-Text Fusion Transformer for Video-based
Pedestrian Attribute Recognition [23.748227536306295]
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
ビデオベースPARを視覚言語融合問題として定式化し,事前学習された大規模モデルCLIPを用いて,映像フレームの機能埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-04-20T05:18:28Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。