論文の概要: Transcription-Enriched Joint Embeddings for Spoken Descriptions of
Images and Videos
- arxiv url: http://arxiv.org/abs/2006.00785v1
- Date: Mon, 1 Jun 2020 08:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:32:43.082132
- Title: Transcription-Enriched Joint Embeddings for Spoken Descriptions of
Images and Videos
- Title(参考訳): 画像とビデオの音声記述のための転写強化共同埋め込み
- Authors: Benet Oriol, Jordi Luque, Ferran Diego and Xavier Giro-i-Nieto
- Abstract要約: 画像, 音声, テキストの3つの同時モーダルを組み合わせ, 独自の埋め込み表現を学習するための効果的な手法を提案する。
EPIC-Kitchen と Places Audio Caption のデータセットを用いた実験により,音声物語の人為的なテキストの書き起こしの導入は,より優れた埋め込み表現を得るための訓練手順に役立つことが示された。
- 参考スコア(独自算出の注目度): 4.419800664096478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose an effective approach for training unique embedding
representations by combining three simultaneous modalities: image and spoken
and textual narratives. The proposed methodology departs from a baseline system
that spawns a embedding space trained with only spoken narratives and image
cues. Our experiments on the EPIC-Kitchen and Places Audio Caption datasets
show that introducing the human-generated textual transcriptions of the spoken
narratives helps to the training procedure yielding to get better embedding
representations. The triad speech, image and words allows for a better estimate
of the point embedding and show an improving of the performance within tasks
like image and speech retrieval, even when text third modality, text, is not
present in the task.
- Abstract(参考訳): 本研究では,画像と音声,テキストの3つの同時モダリティを組み合わせることで,ユニークな埋め込み表現を訓練するための効果的な手法を提案する。
提案手法は,話し言葉と画像手がかりのみで訓練された埋め込み空間を創出するベースラインシステムから逸脱する。
epic-kitchen と places の音声キャプションデータセットを用いた実験では,音声の音声書き起こしが学習過程に役立ち,より優れた埋め込み表現を得ることができた。
三進言語, 画像, 単語は, テキスト3次モダリティやテキストがタスクに存在しない場合でも, 画像や音声検索などのタスクに埋め込まれた点をよりよく推定し, 性能の向上を示す。
関連論文リスト
- Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。
我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。
Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文 参考訳(メタデータ) (2020-12-31T05:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。