論文の概要: vieCap4H-VLSP 2021: Vietnamese Image Captioning for Healthcare Domain
using Swin Transformer and Attention-based LSTM
- arxiv url: http://arxiv.org/abs/2209.01304v1
- Date: Sat, 3 Sep 2022 01:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:21:47.188771
- Title: vieCap4H-VLSP 2021: Vietnamese Image Captioning for Healthcare Domain
using Swin Transformer and Attention-based LSTM
- Title(参考訳): vieCap4H-VLSP 2021:Swin TransformerとAttention-based LSTMを用いたベトナムの医療領域の画像キャプション
- Authors: Thanh Tin Nguyen, Long H. Nguyen, Nhat Truong Pham, Liu Tai Nguyen,
Van Huong Do, Hai Nguyen, Ngoc Duy Nguyen
- Abstract要約: 本研究は,テキスト処理タスクにおける医療領域の自動画像キャプションに関する研究である。
我々のモデルはvietCap4HデータセットでBLEU4スコアの0.293を達成し、そのスコアはプライベートリーダーボードで3$rd$にランク付けされる。
- 参考スコア(独自算出の注目度): 0.2111102681327218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents our approach on the automatic Vietnamese image captioning
for healthcare domain in text processing tasks of Vietnamese Language and
Speech Processing (VLSP) Challenge 2021, as shown in Figure 1. In recent years,
image captioning often employs a convolutional neural network-based
architecture as an encoder and a long short-term memory (LSTM) as a decoder to
generate sentences. These models perform remarkably well in different datasets.
Our proposed model also has an encoder and a decoder, but we instead use a Swin
Transformer in the encoder, and a LSTM combined with an attention module in the
decoder. The study presents our training experiments and techniques used during
the competition. Our model achieves a BLEU4 score of 0.293 on the vietCap4H
dataset, and the score is ranked the 3$^{rd}$ place on the private leaderboard.
Our code can be found at \url{https://git.io/JDdJm}.
- Abstract(参考訳): 本研究は,ベトナム語・音声処理(vlsp)課題2021において,医療領域におけるベトナム語画像キャプションの自動生成手法を提案する。
近年、画像キャプションでは、畳み込みニューラルネットワークベースのアーキテクチャをエンコーダとして、長い短期記憶(LSTM)をデコーダとして、文を生成する。
これらのモデルは、異なるデータセットで驚くほどよく機能する。
提案モデルにはエンコーダとデコーダもあるが,代わりにエンコーダのSwin Transformerと,デコーダのアテンションモジュールを組み合わせたLSTMを使用する。
本研究は,競技中に使用したトレーニング実験と技術について述べる。
我々のモデルはvietCap4HデータセットでBLEU4スコアの0.293を達成し、スコアはプライベートリーダーボードで3$^{rd}$にランク付けされる。
我々のコードは \url{https://git.io/JDdJm} にある。
関連論文リスト
- Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet [0.0]
本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。
モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。
文字誤り率(CER)は17.06パーセントに達している。
論文 参考訳(メタデータ) (2024-06-25T12:14:01Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Scaling Up Vision-Language Pre-training for Image Captioning [51.639880603821446]
画像キャプション用LargEスケールiMageカプティオナーであるLEMONについて紹介する。
いくつかの主要な画像キャプションベンチマークにおいて,LEMONが新たな芸術性を達成することを示す。
論文 参考訳(メタデータ) (2021-11-24T02:30:22Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - Empirical Analysis of Image Caption Generation using Deep Learning [0.0]
我々は,マルチモーダル画像キャプションネットワークの様々なフレーバーを実装し,実験した。
目標は、さまざまな評価指標を使用して、各アプローチのパフォーマンスを分析することである。
論文 参考訳(メタデータ) (2021-05-14T05:38:13Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。