Fugu-MT 論文翻訳(概要): Joint Generation of Captions and Subtitles with Dual Decoding

論文の概要: Joint Generation of Captions and Subtitles with Dual Decoding

arxiv url: http://arxiv.org/abs/2205.06522v1
Date: Fri, 13 May 2022 09:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-16 20:34:06.766237
Title: Joint Generation of Captions and Subtitles with Dual Decoding
Title（参考訳）: 二重復号による字幕と字幕の同時生成
Authors: Jitao Xu, Fran\c{c}ois Buet, Josep Crego, Elise Bertin-Lem\'ee, Fran\c{c}ois Yvon
Abstract要約: これら2つのタスク間の強い結合を実現するために、二重復号方式を評価する。モデルのサイズやトレーニングの複雑さに関して、ほとんどコストがかからず、妥当性と一貫性がいかに向上しているかを示します。
参考スコア（独自算出の注目度）: 1.6624384368855525
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the amount of audio-visual content increases, the need to develop automatic captioning and subtitling solutions to match the expectations of a growing international audience appears as the only viable way to boost throughput and lower the related post-production costs. Automatic captioning and subtitling often need to be tightly intertwined to achieve an appropriate level of consistency and synchronization with each other and with the video signal. In this work, we assess a dual decoding scheme to achieve a strong coupling between these two tasks and show how adequacy and consistency are increased, with virtually no additional cost in terms of model size and training complexity.
Abstract（参考訳）: 音声・視覚コンテンツの増加に伴い、国際的な視聴者の期待に応えて自動キャプション・サブティット・ソリューションを開発する必要性が、スループットを向上し、関連するポストプロダクションコストを削減できる唯一の方法として現れている。自動キャプションとサブタイピングは、互いに適切なレベルの一貫性と同期を達成するために、ビデオ信号と密接に連携する必要があることが多い。本研究では,これら2つのタスク間の強い結合を実現するために,二重復号方式を評価し,モデルサイズやトレーニングの複雑さといった付加的なコストをほとんど必要とせず,妥当性と一貫性がどの程度向上しているかを示す。

関連論文リスト

FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。 FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2～3倍の高速化を実現している。
論文参考訳（メタデータ） (2025-06-04T17:57:09Z)
CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching [79.0241611035794]
CoVoMix2はゼロショットマルチトーカー対話生成のためのフレームワークである。フローマッチングに基づく生成モデルを用いて、マルチストリームの転写からメルスペクトルを予測する。提案手法は,MoonCastやSesameといった強力なベースラインを,音声品質,話者の整合性,推論速度で上回り,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-06-01T07:51:45Z)
SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文参考訳（メタデータ） (2025-06-01T04:27:13Z)
AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。 AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T03:28:53Z)
DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文参考訳（メタデータ） (2025-04-14T10:17:25Z)
Dual Audio-Centric Modality Coupling for Talking Head Generation [4.03322932416974]
音声駆動音声ヘッドビデオの生成は、仮想アバターやデジタルメディアなど、コンピュータビジョンとグラフィックスにおいて重要な課題である。従来のアプローチは、しばしば音声と顔のダイナミックスの間の複雑な相互作用を捉え、唇の同期と視覚的品質の問題を引き起こす。音声入力からコンテンツや動的特徴を効果的に統合する新しいNeRFベースのフレームワークであるDual Audio-Centric Modality Coupling (DAMC)を提案する。
論文参考訳（メタデータ） (2025-03-26T06:46:51Z)
Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文参考訳（メタデータ） (2025-03-22T05:04:12Z)
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文参考訳（メタデータ） (2025-03-11T16:43:45Z)
Music2Latent2: Audio Compression with Summary Embeddings and Autoregressive Decoding [0.0]
音声信号を要約埋め込みの集合に圧縮する新しいオーディオオートエンコーダであるMusic2Latent2を紹介する。ローカルオーディオ機能を順序付きシーケンスにエンコードする従来の方法とは異なり、Music2Latent2は音声信号を要約埋め込みのセットに圧縮する。任意のオーディオ長を扱うために、Music2Latent2では、因果マスキングを備えた2つの連続したオーディオチャンクでトレーニングされた自動回帰一貫性モデルを採用している。
論文参考訳（メタデータ） (2025-01-29T11:34:19Z)
Music2Latent: Consistency Autoencoders for Latent Audio Compression [0.0]
一貫性モデルを活用することで制限を克服するオーディオオートエンコーダであるMusic2Latentを紹介する。 Music2Latentは、単一エンドツーエンドのトレーニングプロセスにおいて、サンプルを圧縮された連続潜伏空間にエンコードする。 Music2Latentは、音質と再現精度において、既存の連続オーディオオートエンコーダよりも優れていることを示す。
論文参考訳（メタデータ） (2024-08-12T21:25:19Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文参考訳（メタデータ） (2023-09-25T19:42:16Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Token-Level Serialized Output Training for Joint Streaming ASR and ST Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文参考訳（メタデータ） (2023-07-07T02:26:18Z)
Consistency-guided Prompt Learning for Vision-Language Models [23.4909421082857]
視覚言語モデルのための新しい微調整手法であるConsistency-Guided Prompt Learning (CoPrompt)を提案する。提案手法は,下流タスクを数ショットで微調整した場合に,大規模な基礎モデルの一般化を改善する。
論文参考訳（メタデータ） (2023-06-01T23:20:47Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
Between Flexibility and Consistency: Joint Generation of Captions and Subtitles [13.58711830450618]
音声翻訳(ST)は、最近、中間ソース言語の転写とタイミングを必要とせず、字幕生成への関心が高まっている。本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。本研究は, 共同復号化によって生成した字幕と字幕間の性能と一貫性が向上し, 言語固有のニーズや規範に適合した字幕を生成するのに十分な柔軟性が得られていることを示す。
論文参考訳（メタデータ） (2021-07-13T17:06:04Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。