論文の概要: Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens
- arxiv url: http://arxiv.org/abs/2309.08531v1
- Date: Fri, 15 Sep 2023 16:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:51:55.439962
- Title: Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens
- Title(参考訳): 視覚言語事前学習とマルチモーダルトークンを用いた映像音声キャプションの実用的・効率的化に向けて
- Authors: Minsu Kim, Jeongsoo Choi, Soumi Maiti, Jeong Hun Yeo, Shinji Watanabe,
Yong Man Ro
- Abstract要約: 我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
- 参考スコア(独自算出の注目度): 87.52235889917223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose methods to build a powerful and efficient
Image-to-Speech captioning (Im2Sp) model. To this end, we start with importing
the rich knowledge related to image comprehension and language modeling from a
large-scale pre-trained vision-language model into Im2Sp. We set the output of
the proposed Im2Sp as discretized speech units, i.e., the quantized speech
features of a self-supervised speech model. The speech units mainly contain
linguistic information while suppressing other characteristics of speech. This
allows us to incorporate the language modeling capability of the pre-trained
vision-language model into the spoken language modeling of Im2Sp. With the
vision-language pre-training strategy, we set new state-of-the-art Im2Sp
performances on two widely used benchmark databases, COCO and Flickr8k. Then,
we further improve the efficiency of the Im2Sp model. Similar to the speech
unit case, we convert the original image into image units, which are derived
through vector quantization of the raw image. With these image units, we can
drastically reduce the required data storage for saving image data to just 0.8%
when compared to the original image data in terms of bits. Demo page:
https://ms-dot-k.github.io/Image-to-Speech-Captioning.
- Abstract(参考訳): 本稿では,画像から音声へのキャプション(Im2Sp)モデルの構築手法を提案する。
この目的のために,画像理解と言語モデリングに関する豊富な知識を,大規模に訓練された視覚言語モデルからim2spにインポートすることから始める。
提案するim2spの出力を離散化音声単位、すなわち自己教師付き音声モデルの量子化音声特徴として設定する。
音声単位は主に言語情報を含み、他の音声の特徴を抑える。
これにより、事前学習された視覚言語モデルの言語モデリング能力をIm2Spの音声言語モデリングに組み込むことができる。
ビジョン言語による事前トレーニング戦略により,広く使用されている2つのベンチマークデータベースであるCOCOとFlickr8k上で,最先端のIm2Spのパフォーマンスを新たに設定した。
そして、Im2Spモデルの効率をさらに向上する。
音声単位の場合と同様に、原画像のベクトル量子化によって導出される原画像を画像単位に変換する。
これらの画像ユニットでは、画像データをビット単位で保存するために必要なデータストレージを、元の画像データと比較してわずか0.8%に劇的に削減することができる。
デモページ: https://ms-dot-k.github.io/image-to-speech-captioning。
関連論文リスト
- Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2 [0.0]
中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2が構築された。
このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。
複数の公開データセットの実験的結果は、BLEU4、FAD(Fr'echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
論文 参考訳(メタデータ) (2024-07-19T11:18:44Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。