論文の概要: AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning
- arxiv url: http://arxiv.org/abs/2407.07801v2
- Date: Thu, 11 Jul 2024 02:38:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 11:33:49.082322
- Title: AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning
- Title(参考訳): AVCap:字幕化のためのテキストトークンとしてオーディオ・ビジュアル機能を活用する
- Authors: Jongsuk Kim, Jiwon Shin, Junmo Kim,
- Abstract要約: AVCap(Audio-Visual Captioning framework)を提案する。
AVCapは音声視覚機能をテキストトークンとして利用する。
提案手法は,既存の音声・視覚のキャプション手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 24.608569008975497
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, advancements in representation learning and language models have propelled Automated Captioning (AC) to new heights, enabling the generation of human-level descriptions. Leveraging these advancements, we propose AVCap, an Audio-Visual Captioning framework, a simple yet powerful baseline approach applicable to audio-visual captioning. AVCap utilizes audio-visual features as text tokens, which has many advantages not only in performance but also in the extensibility and scalability of the model. AVCap is designed around three pivotal dimensions: the exploration of optimal audio-visual encoder architectures, the adaptation of pre-trained models according to the characteristics of generated text, and the investigation into the efficacy of modality fusion in captioning. Our method outperforms existing audio-visual captioning methods across all metrics and the code is available on https://github.com/JongSuk1/AVCap
- Abstract(参考訳): 近年、表現学習と言語モデルの進歩により、オートマチック・キャプション(AC)は新たな高みに発展し、人間レベルの記述の生成が可能になった。
これらの進歩を生かして、オーディオ・ビジュアル・キャプションに適用可能な、シンプルながら強力なベースラインアプローチであるオーディオ・ビジュアル・キャプション・フレームワークであるAVCapを提案する。
AVCapは音声視覚機能をテキストトークンとして利用しており、性能だけでなく、モデルの拡張性と拡張性にも多くの利点がある。
AVCapは、最適なオーディオ-視覚エンコーダアーキテクチャの探索、生成されたテキストの特性に応じた事前訓練されたモデルの適応、キャプションにおけるモダリティ融合の有効性の調査の3つの重要な側面に基づいて設計されている。
我々のメソッドは、すべてのメトリクスで既存の音声-視覚キャプションメソッドよりも優れており、コードはhttps://github.com/JongSuk1/AVCapで利用可能である。
関連論文リスト
- LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport [16.108957027494604]
LAVCapは大型言語モデル(LLM)ベースの音声視覚キャプションフレームワークである。
視覚情報とオーディオを統合し、音声キャプション性能を向上させる。
既存のAudioCapsデータセットの最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-01-16T04:53:29Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - Progress-Aware Video Frame Captioning [55.23366888264651]
本稿では,アクションシーケンス内の微細な時間的ダイナミクスをキャプチャするキャプションモデルであるProgressCaptionerを提案する。
我々は、トレーニングをサポートするFrameCapデータセットと、キャプションの品質を評価するFrameCapEvalベンチマークを開発する。
結果は、ProgressCaptionerが主要なキャプションモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-12-03T01:21:28Z) - DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning [13.601154787754046]
DRCapはデータ効率が高く柔軟なゼロショットオーディオキャプションシステムである。
トレーニングにはテキストのみのデータが必要で、微調整を加えることなく、新しいドメインに迅速に適応できる。
論文 参考訳(メタデータ) (2024-10-12T10:21:00Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。