論文の概要: ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation
- arxiv url: http://arxiv.org/abs/2303.06458v3
- Date: Mon, 3 Jun 2024 12:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:35:51.770763
- Title: ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation
- Title(参考訳): ZeroNLG: Zero-Shot Multimodal と Multilingual Natural Language 生成のためのドメインのアライメントと自動エンコーディング
- Authors: Bang Yang, Fenglin Liu, Yuexian Zou, Xian Wu, Yaowei Wang, David A. Clifton,
- Abstract要約: 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。
既存のNLGメソッドは、主に教師付きアプローチを採用し、結合されたデータとテキストのペアに大きく依存している。
我々はZeroNLGを提案する。ZeroNLGは、画像からテキストへ(画像キャプション)、ビデオからテキストへ(動画キャプション)、テキストからテキストへ(音声機械翻訳)を英語、中国語、ドイツ語、フランス語で処理できる。
- 参考スコア(独自算出の注目度): 114.76003583265627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Generation (NLG) accepts input data in the form of images, videos, or text and generates corresponding natural language text as output. Existing NLG methods mainly adopt a supervised approach and rely heavily on coupled data-to-text pairs. However, for many targeted scenarios and for non-English languages, sufficient quantities of labeled data are often not available. To relax the dependency on labeled data of downstream tasks, we propose an intuitive and effective zero-shot learning framework, ZeroNLG, which can deal with multiple NLG tasks, including image-to-text (image captioning), video-to-text (video captioning), and text-to-text (neural machine translation), across English, Chinese, German, and French within a unified framework. ZeroNLG does not require any labeled downstream pairs for training. During training, ZeroNLG (i) projects different domains (across modalities and languages) to corresponding coordinates in a shared common latent space; (ii) bridges different domains by aligning their corresponding coordinates in this space; and (iii) builds an unsupervised multilingual auto-encoder to learn to generate text by reconstructing the input text given its coordinate in shared latent space. Consequently, during inference, based on the data-to-text pipeline, ZeroNLG can generate target sentences across different languages given the coordinate of input data in the common space. Within this unified framework, given visual (imaging or video) data as input, ZeroNLG can perform zero-shot visual captioning; given textual sentences as input, ZeroNLG can perform zero-shot machine translation. We present the results of extensive experiments on twelve NLG tasks, showing that, without using any labeled downstream pairs for training, ZeroNLG generates high-quality and believable outputs and significantly outperforms existing zero-shot methods.
- Abstract(参考訳): 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。
既存のNLGメソッドは、主に教師付きアプローチを採用し、結合されたデータとテキストのペアに大きく依存している。
しかし、多くのターゲットシナリオや英語以外の言語では、十分な量のラベル付きデータが利用できないことが多い。
下流タスクのラベル付きデータへの依存を緩和するため、画像からテキストへの変換(画像キャプション)、ビデオからテキストへの変換(ビデオキャプション)、テキストからテキストへの変換(音声機械翻訳)など、複数のNLGタスクを統一されたフレームワークで処理可能な、直感的で効果的なゼロショット学習フレームワークであるZeroNLGを提案する。
ZeroNLGはトレーニングのためにラベル付き下流ペアを必要としない。
ZeroNLGのトレーニング中
i) 共通潜伏空間において対応する座標に異なる領域(全モダリティ及び言語)を計画すること。
(二 この空間において対応する座標を整列させて異なる領域を橋渡しすること。)
三 教師なし多言語自動エンコーダを構築し、共有潜在空間における座標が与えられた入力テキストを再構成することにより、テキストを生成することを学習する。
これにより、データ・トゥ・テキスト・パイプラインに基づく推論において、ZeroNLGは、共通空間における入力データの座標が与えられた場合、異なる言語間でターゲット文を生成することができる。
この統合されたフレームワーク内では、視覚的(画像またはビデオ)データを入力として、ZeroNLGはゼロショットの視覚キャプションを実行することができ、テキスト文を入力として、ゼロショットの機械翻訳を行うことができる。
我々は,12のNLGタスクに対する広範な実験結果を示し,ラベル付き下流ペアをトレーニングに使わずに,ZeroNLGは高品質で信頼性の高い出力を生成し,既存のゼロショット法を著しく上回ることを示す。
関連論文リスト
- ChatZero:Zero-shot Cross-Lingual Dialogue Generation via Pseudo-Target Language [53.8622516025736]
そこで本研究では,言語間符号切替方式に基づく,エンドツーエンドのゼロショット対話生成モデルChatZeroを提案する。
多言語DailyDialogとDSTC7-AVSDデータセットの実験は、ChatZeroが元のパフォーマンスの90%以上を達成することを示した。
論文 参考訳(メタデータ) (2024-08-16T13:11:53Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T10:33:03Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic
Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。
本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文 参考訳(メタデータ) (2022-03-10T15:53:58Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Schema-Guided Natural Language Generation [13.11874946084068]
誘導自然言語生成(SG-NLG)の課題について紹介する。
SG-NLGでは、まだ自然言語プロンプトを生成することが目標であるが、SG-NLGでは、入力MRとコンテキスト情報を提供するリッチスキーマがペアリングされる。
このデータセットに基づいて、ニューラルネットワーク生成のためのさまざまな最先端モデルをトレーニングし、リッチスキーマ情報を含む多くのケースにおいて、私たちのモデルがより高い品質の出力を生成することができることを示す。
論文 参考訳(メタデータ) (2020-05-11T23:01:22Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。