Fugu-MT 論文翻訳(概要): Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

論文の概要: Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

arxiv url: http://arxiv.org/abs/2405.18669v2
Date: Fri, 31 May 2024 15:42:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 19:03:44.648604
Title: Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities
Title（参考訳）: Zipper: モダリティを再利用するための多層デコーダアーキテクチャ
Authors: Vicky Zayats, Peter Chen, Melissa Ferrari, Dirk Padfield,
Abstract要約: 独立に訓練された単調デコーダから多モード生成モデルを柔軟に構成するマルチトワーデコーダアーキテクチャを提案する。提案アーキテクチャは,テキスト音声データに制限のあるシナリオにおいて,非常に競争力のある性能を示す。出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。
参考スコア（独自算出の注目度）: 6.9522425458326635
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Integrating multiple generative foundation models, especially those trained on different modalities, into something greater than the sum of its parts poses significant challenges. Two key hurdles are the availability of aligned data (concepts that contain similar meaning but is expressed differently in different modalities), and effectively leveraging unimodal representations in cross-domain generative tasks, without compromising their original unimodal capabilities. We propose Zipper, a multi-tower decoder architecture that addresses these concerns by using cross-attention to flexibly compose multimodal generative models from independently pre-trained unimodal decoders. In our experiments fusing speech and text modalities, we show the proposed architecture performs very competitively in scenarios with limited aligned text-speech data. We also showcase the flexibility of our model to selectively maintain unimodal (e.g., text-to-text generation) generation performance by freezing the corresponding modal tower (e.g. text). In cross-modal tasks such as automatic speech recognition (ASR) where the output modality is text, we show that freezing the text backbone results in negligible performance degradation. In cross-modal tasks such as text-to-speech generation (TTS) where the output modality is speech, we show that using a pre-trained speech backbone results in superior performance to the baseline.
Abstract（参考訳）: 複数の生成基盤モデル、特に異なるモダリティで訓練されたモデルを統合することは、その部分の総和よりも大きい何かに重大な課題をもたらす。 2つの主要なハードルは、整列データ(同様の意味を持つが異なるモダリティで表現される概念)の可用性と、ドメイン間の生成タスクにおいて、元のユニモーダル能力を損なうことなく、効果的にユニモーダル表現を活用することである。本稿では,これらの問題に対処する多目的デコーダアーキテクチャであるZipperを提案する。音声とテキストのモダリティを融合させる実験では,限定されたテキスト音声データを持つシナリオにおいて,提案アーキテクチャが極めて競合的に機能することを示した。また,本モデルでは,対応する変調塔(e.g.テキスト)を凍結することにより,単調(e.g.テキスト・テキスト生成)生成性能を選択的に維持する柔軟性を示す。出力モダリティがテキストである自動音声認識(ASR)のようなクロスモーダルタスクにおいて、テキストバックボーンの凍結が無視可能な性能劣化をもたらすことを示す。出力モダリティが音声であるTTS(text-to-Speech Generation)のようなクロスモーダルなタスクでは、事前訓練された音声バックボーンを使用することで、ベースラインよりも優れたパフォーマンスが得られることを示す。

関連論文リスト

Towards Universal Khmer Text Recognition [3.5477182055025107]
Khmerは、複雑なスクリプトを特徴とする低リソース言語である。各モダリティに対するモダリティ固有のトレーニングモデルは、モダリティ間移動学習を許さない。多様なテキストモダリティを扱える普遍的なKhmerテキスト認識フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-28T15:23:09Z)
ChatUMM: Robust Context Tracking for Conversational Interleaved Generation [44.19929499646892]
統一マルチモーダルモデル(UMM)は目覚ましい進歩を遂げているが、シングルターン相互作用パラダイムによって制約されている。本稿では,対話型統合モデルChatUMMを提案する。 ChatUMMは、連続的な会話の流れとしてシリアライズされたテキストイメージストリームをモデル化するインターリーブされたマルチターントレーニング戦略に由来する。
論文参考訳（メタデータ） (2026-02-06T07:11:50Z)
MoST: Mixing Speech and Text with Modality-Aware Mixture of Experts [12.42628977620548]
MoST(Mixture of Speech and Text)は、音声処理とテキスト処理をシームレスに統合する新しい大規模言語モデルである。入力型に基づいて、モダリティに適した専門家にトークンを指示する特殊な経路を導入する。 MoSTは、パラメータ数に匹敵する既存のモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2026-01-15T10:43:29Z)
Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文参考訳（メタデータ） (2026-01-07T19:19:44Z)
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。 TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文参考訳（メタデータ） (2025-06-01T09:27:55Z)
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文参考訳（メタデータ） (2025-04-29T10:56:24Z)
SEAL: Speech Embedding Alignment Learning for Speech Large Language Model with Retrieval-Augmented Generation [10.828717295018123]
本稿では,中間テキスト表現の必要性を解消する統合埋め込みフレームワークを提案する。本モデルでは,従来の2段階法に比べて高い精度でパイプライン遅延を50%削減する。
論文参考訳（メタデータ） (2025-01-26T15:04:02Z)
Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.31956918333587]
マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文参考訳（メタデータ） (2024-10-19T07:59:41Z)
MIO: A Foundation Model on Multimodal Tokens [74.85153216521945]
マルチモーダルトークン上に構築された新しい基礎モデルMIOを紹介する。 MIOは、エンドツーエンドの自己回帰的な方法で、音声、テキスト、画像、ビデオを理解し、生成することができる。
論文参考訳（メタデータ） (2024-09-26T09:57:16Z)
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文参考訳（メタデータ） (2024-08-11T12:24:23Z)
Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-23T10:11:56Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文参考訳（メタデータ） (2023-05-25T14:39:47Z)
Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data [15.658471125219224]
音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
論文参考訳（メタデータ） (2022-04-10T10:25:37Z)
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T15:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。