論文の概要: Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning
- arxiv url: http://arxiv.org/abs/2211.15076v1
- Date: Mon, 28 Nov 2022 05:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:36:40.132086
- Title: Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning
- Title(参考訳): ビデオキャプションにおける周波数拡散に対する精細セマンティックエンハンスメント
- Authors: Xian Zhong, Zipeng Li, Shuqin Chen, Kui Jiang, Chen Chen and Mang Ye
- Abstract要約: ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。
既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。
頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
- 参考スコア(独自算出の注目度): 29.617527535279574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning aims to generate natural language sentences that describe
the given video accurately. Existing methods obtain favorable generation by
exploring richer visual representations in encode phase or improving the
decoding ability. However, the long-tailed problem hinders these attempts at
low-frequency tokens, which rarely occur but carry critical semantics, playing
a vital role in the detailed generation. In this paper, we introduce a novel
Refined Semantic enhancement method towards Frequency Diffusion (RSFD), a
captioning model that constantly perceives the linguistic representation of the
infrequent tokens. Concretely, a Frequency-Aware Diffusion (FAD) module is
proposed to comprehend the semantics of low-frequency tokens to break through
generation limitations. In this way, the caption is refined by promoting the
absorption of tokens with insufficient occurrence. Based on FAD, we design a
Divergent Semantic Supervisor (DSS) module to compensate for the information
loss of high-frequency tokens brought by the diffusion process, where the
semantics of low-frequency tokens is further emphasized to alleviate the
long-tailed problem. Extensive experiments indicate that RSFD outperforms the
state-of-the-art methods on two benchmark datasets, i.e., MSR-VTT and MSVD,
demonstrate that the enhancement of low-frequency tokens semantics can obtain a
competitive generation effect. Code is available at
https://github.com/lzp870/RSFD.
- Abstract(参考訳): ビデオキャプションは、与えられたビデオを正確に記述する自然言語文を生成することを目的としている。
既存の手法では、エンコードフェーズでよりリッチな視覚的表現を探索したり、復号能力を向上させることで良好な生成が得られる。
しかし、長い尾の問題はこれらの低周波トークンに対する試みを妨げ、これは稀に起こるが重要な意味論を持ち、詳細な生成において重要な役割を果たす。
本稿では,不適切なトークンの言語表現を常に知覚するキャプションモデルである周波数拡散(rsfd)に対する新しい洗練された意味的拡張法を提案する。
具体的には、低周波トークンの意味を理解するために、周波数対応拡散(FAD)モジュールを提案する。
このようにして、トークンの吸収を不十分に促進してキャプションを洗練する。
fadに基づき、拡散過程によって引き起こされる高周波トークンの情報損失を補償するために、分散セマンティックスーパーバイザ(dss)モジュールを設計し、低周波トークンのセマンティクスをさらに強調し、ロングテール問題を軽減する。
RSFDは、MSR-VTTとMSVDという2つのベンチマークデータセット上で最先端の手法よりも優れており、低周波トークンセマンティクスの強化が競合する生成効果が得られることを示している。
コードはhttps://github.com/lzp870/RSFDで入手できる。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Denoising-Diffusion Alignment for Continuous Sign Language Recognition [24.376213903941746]
連続手話認識の主な課題は、ビデオと光沢シーケンス間の相互モダリティアライメントを実現する方法である。
新たにDDA(Denoising-Diffusion Global alignment)を提案する。
DDAは拡散に基づくグローバルアライメント技術を用いて、ビデオとグロスシーケンスをアライメントし、グローバル時間的コンテキストアライメントを容易にする。
論文 参考訳(メタデータ) (2023-05-05T15:20:27Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。