Fugu-MT 論文翻訳(概要): ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation

論文の概要: ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation

arxiv url: http://arxiv.org/abs/2303.06458v2
Date: Thu, 7 Dec 2023 04:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 18:57:25.311171
Title: ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation
Title（参考訳）: zeronlg: ゼロショットマルチモーダルおよび多言語自然言語生成のためのアライメントおよび自動エンコーディングドメイン
Authors: Bang Yang, Fenglin Liu, Yuexian Zou, Xian Wu, Yaowei Wang, and David A. Clifton
Abstract要約: 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。既存のNLGメソッドは、主に教師付きアプローチを採用し、結合されたデータとテキストのペアに大きく依存している。我々はZeroNLGを提案する。ZeroNLGは、画像からテキストへ(画像キャプション)、ビデオからテキストへ(動画キャプション)、テキストからテキストへ(音声機械翻訳)を英語、中国語、ドイツ語、フランス語で処理できる。
参考スコア（独自算出の注目度）: 114.76003583265627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural Language Generation (NLG) accepts input data in the form of images, videos, or text and generates corresponding natural language text as output. Existing NLG methods mainly adopt a supervised approach and rely heavily on coupled data-to-text pairs. However, for many targeted scenarios and for non-English languages, sufficient quantities of labeled data are often not available. To relax the dependency on labeled data of downstream tasks, we propose an intuitive and effective zero-shot learning framework, ZeroNLG, which can deal with multiple NLG tasks, including image-to-text (image captioning), video-to-text (video captioning), and text-to-text (neural machine translation), across English, Chinese, German, and French within a unified framework. ZeroNLG does not require any labeled downstream pairs for training. During training, ZeroNLG (i) projects different domains (across modalities and languages) to corresponding coordinates in a shared common latent space; (ii) bridges different domains by aligning their corresponding coordinates in this space; and (iii) builds an unsupervised multilingual auto-encoder to learn to generate text by reconstructing the input text given its coordinate in shared latent space. Consequently, during inference, based on the data-to-text pipeline, ZeroNLG can generate target sentences across different languages given the coordinate of input data in the common space. Within this unified framework, given visual (imaging or video) data as input, ZeroNLG can perform zero-shot visual captioning; given textual sentences as input, ZeroNLG can perform zero-shot machine translation. We present the results of extensive experiments on twelve NLG tasks, showing that, without using any labeled downstream pairs for training, ZeroNLG generates high-quality and believable outputs and significantly outperforms existing zero-shot methods.
Abstract（参考訳）: 自然言語生成(NLG)は、画像、ビデオ、テキストの形式で入力データを受け付け、対応する自然言語テキストを出力として生成する。既存のNLGメソッドは主に教師付きアプローチを採用し、結合したデータ-テキストペアに大きく依存している。しかし、多くのシナリオや英語以外の言語では、十分な量のラベル付きデータが利用できないことが多い。ダウンストリームタスクのラベル付きデータへの依存を緩和するために,直観的で効果的なゼロショット学習フレームワークであるzeronlgを提案する。このフレームワークは,統合フレームワーク内で英語,中国語,ドイツ語,フランス語にまたがって,画像からテキストへの(画像キャプション),ビデオからテキストへの(ビデオキャプション),テキスト間(ニューラル機械翻訳)といった複数のnlgタスクを処理できる。 ZeroNLGはトレーニングのためにラベル付き下流ペアを必要としない。 ZeroNLGのトレーニング中 (i)共有共通潜在空間内の対応する座標に対して異なる領域(交叉モダリティ及び言語)を計画する。 (二この空間において対応する座標を整列させて異なる領域を橋渡しすること。) 三教師なし多言語自動エンコーダを構築し、共有潜在空間における座標が与えられた入力テキストを再構成してテキストを生成する。したがって、推論の間、データからテキストへのパイプラインに基づいて、0nlgは共通の空間における入力データの座標に基づいて、異なる言語にまたがるターゲット文を生成することができる。この統一フレームワークでは、視覚(画像またはビデオ)データを入力として、zeronlgはゼロショット視覚キャプションを実行し、テキスト文を入力として、zeronlgはゼロショット機械翻訳を実行することができる。我々は,12のNLGタスクに対する広範な実験結果を示し,ラベル付き下流ペアをトレーニングに使わずに,ZeroNLGは高品質で信頼性の高い出力を生成し,既存のゼロショット法を著しく上回ることを示す。

関連論文リスト

Segment, Embed, and Align: A Universal Recipe for Aligning Subtitles to Signing [60.9289697082021]
Segment、Embed、Align(SEA)は、複数の言語やドメインで動作する単一のフレームワークを提供する。 SEAは2つの事前訓練されたモデルを利用する: ビデオフレームシーケンスを個別の記号に分割し、次に、各サインのビデオクリップをテキストで共有潜在空間に埋め込む。アライメントは、数時間のエピソードであっても、1分以内にCPU上で効率的に実行される軽量な動的プログラミング手順で実行される。
論文参考訳（メタデータ） (2025-12-08T23:07:48Z)
ChatZero:Zero-shot Cross-Lingual Dialogue Generation via Pseudo-Target Language [53.8622516025736]
そこで本研究では,言語間符号切替方式に基づく,エンドツーエンドのゼロショット対話生成モデルChatZeroを提案する。多言語DailyDialogとDSTC7-AVSDデータセットの実験は、ChatZeroが元のパフォーマンスの90%以上を達成することを示した。
論文参考訳（メタデータ） (2024-08-16T13:11:53Z)
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。 PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文参考訳（メタデータ） (2024-06-11T10:06:53Z)
PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文参考訳（メタデータ） (2023-04-24T03:54:48Z)
Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文参考訳（メタデータ） (2023-01-20T10:33:03Z)
Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文参考訳（メタデータ） (2022-10-18T03:06:47Z)
IndicNLG Suite: Multilingual Datasets for Diverse NLG Tasks in Indic Languages [23.157951796614466]
本稿では,11言語を対象とした自然言語生成をベンチマークするデータセットの集合であるIndicNLGスイートを提案する。本稿では,ウィキペディア情報ボックス(WikiBio)を用いたバイオグラフィー生成,ニュース見出し生成,文要約,質問生成,パラフレーズ生成の5つのタスクに着目した。
論文参考訳（メタデータ） (2022-03-10T15:53:58Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)
Schema-Guided Natural Language Generation [13.11874946084068]
誘導自然言語生成(SG-NLG)の課題について紹介する。 SG-NLGでは、まだ自然言語プロンプトを生成することが目標であるが、SG-NLGでは、入力MRとコンテキスト情報を提供するリッチスキーマがペアリングされる。このデータセットに基づいて、ニューラルネットワーク生成のためのさまざまな最先端モデルをトレーニングし、リッチスキーマ情報を含む多くのケースにおいて、私たちのモデルがより高い品質の出力を生成することができることを示す。
論文参考訳（メタデータ） (2020-05-11T23:01:22Z)
Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文参考訳（メタデータ） (2020-01-14T02:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。