論文の概要: Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning
- arxiv url: http://arxiv.org/abs/2211.15076v1
- Date: Mon, 28 Nov 2022 05:45:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:36:40.132086
- Title: Refined Semantic Enhancement towards Frequency Diffusion for Video
Captioning
- Title(参考訳): ビデオキャプションにおける周波数拡散に対する精細セマンティックエンハンスメント
- Authors: Xian Zhong, Zipeng Li, Shuqin Chen, Kui Jiang, Chen Chen and Mang Ye
- Abstract要約: ビデオキャプションは、与えられたビデオを正確に記述した自然言語文を生成することを目的としている。
既存の方法では、エンコードフェーズにおけるよりリッチな視覚表現を探索したり、復号能力を向上させることで、良好な生成が得られる。
頻繁なトークンの言語表現を常に知覚するキャプションモデルであるRSFD(Refined Semantic enhancement Method)を導入する。
- 参考スコア(独自算出の注目度): 29.617527535279574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning aims to generate natural language sentences that describe
the given video accurately. Existing methods obtain favorable generation by
exploring richer visual representations in encode phase or improving the
decoding ability. However, the long-tailed problem hinders these attempts at
low-frequency tokens, which rarely occur but carry critical semantics, playing
a vital role in the detailed generation. In this paper, we introduce a novel
Refined Semantic enhancement method towards Frequency Diffusion (RSFD), a
captioning model that constantly perceives the linguistic representation of the
infrequent tokens. Concretely, a Frequency-Aware Diffusion (FAD) module is
proposed to comprehend the semantics of low-frequency tokens to break through
generation limitations. In this way, the caption is refined by promoting the
absorption of tokens with insufficient occurrence. Based on FAD, we design a
Divergent Semantic Supervisor (DSS) module to compensate for the information
loss of high-frequency tokens brought by the diffusion process, where the
semantics of low-frequency tokens is further emphasized to alleviate the
long-tailed problem. Extensive experiments indicate that RSFD outperforms the
state-of-the-art methods on two benchmark datasets, i.e., MSR-VTT and MSVD,
demonstrate that the enhancement of low-frequency tokens semantics can obtain a
competitive generation effect. Code is available at
https://github.com/lzp870/RSFD.
- Abstract(参考訳): ビデオキャプションは、与えられたビデオを正確に記述する自然言語文を生成することを目的としている。
既存の手法では、エンコードフェーズでよりリッチな視覚的表現を探索したり、復号能力を向上させることで良好な生成が得られる。
しかし、長い尾の問題はこれらの低周波トークンに対する試みを妨げ、これは稀に起こるが重要な意味論を持ち、詳細な生成において重要な役割を果たす。
本稿では,不適切なトークンの言語表現を常に知覚するキャプションモデルである周波数拡散(rsfd)に対する新しい洗練された意味的拡張法を提案する。
具体的には、低周波トークンの意味を理解するために、周波数対応拡散(FAD)モジュールを提案する。
このようにして、トークンの吸収を不十分に促進してキャプションを洗練する。
fadに基づき、拡散過程によって引き起こされる高周波トークンの情報損失を補償するために、分散セマンティックスーパーバイザ(dss)モジュールを設計し、低周波トークンのセマンティクスをさらに強調し、ロングテール問題を軽減する。
RSFDは、MSR-VTTとMSVDという2つのベンチマークデータセット上で最先端の手法よりも優れており、低周波トークンセマンティクスの強化が競合する生成効果が得られることを示している。
コードはhttps://github.com/lzp870/RSFDで入手できる。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Unsupervised Sentence Representation Learning with Frequency-induced
Adversarial Tuning and Incomplete Sentence Filtering [14.085826003974187]
SLT-FAI(SLT-FAI)を用いた文表現学習を提案する。
PLMは、事前学習したコーパスからの単語の周波数情報に敏感であり、異方性埋め込み空間となる。
いくつかの低頻度単語をランダムにマスキングすることで、原文と不完全文の埋め込みを識別するために、情報識別器を組み込んだ。
論文 参考訳(メタデータ) (2023-05-15T13:59:23Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。