論文の概要: Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation
- arxiv url: http://arxiv.org/abs/2310.13361v1
- Date: Fri, 20 Oct 2023 09:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:45:34.680572
- Title: Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation
- Title(参考訳): マルチモーダル機械翻訳のための合成画像と本物画像のギャップの橋渡し
- Authors: Wenyu Guo, Qingkai Fang, Dong Yu, Yang Feng
- Abstract要約: マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
近年の研究では、画像入力のための強力なテキスト・画像生成モデルが提案されている。
しかし、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布を辿ることが多い。
- 参考スコア(独自算出の注目度): 51.37092275604371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal machine translation (MMT) simultaneously takes the source sentence
and a relevant image as input for translation. Since there is no paired image
available for the input sentence in most cases, recent studies suggest
utilizing powerful text-to-image generation models to provide image inputs.
Nevertheless, synthetic images generated by these models often follow different
distributions compared to authentic images. Consequently, using authentic
images for training and synthetic images for inference can introduce a
distribution shift, resulting in performance degradation during inference. To
tackle this challenge, in this paper, we feed synthetic and authentic images to
the MMT model, respectively. Then we minimize the gap between the synthetic and
authentic images by drawing close the input image representations of the
Transformer Encoder and the output distributions of the Transformer Decoder.
Therefore, we mitigate the distribution disparity introduced by the synthetic
images during inference, thereby freeing the authentic images from the
inference process.Experimental results show that our approach achieves
state-of-the-art performance on the Multi30K En-De and En-Fr datasets, while
remaining independent of authentic images during inference.
- Abstract(参考訳): マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
入力文にペア画像が存在しない場合が多いため,近年の研究では,強力なテキスト・画像生成モデルを用いて画像入力を行う方法が提案されている。
しかしながら、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布に従うことが多い。
これにより、トレーニング用認証画像と推論用合成画像を使用することで、分布シフトを導入でき、推論時の性能劣化が生じる。
この課題に対処するため,本稿では,MMTモデルに合成画像と認証画像をそれぞれ供給する。
次に、変換器エンコーダの入力画像表現と変換器デコーダの出力分布を閉じることで、合成画像と認証画像のギャップを最小化する。
そこで,我々は,合成画像が推論中に導入した分布格差を緩和し,実際の画像から推論プロセスから解放する。実験結果から,提案手法は,推論中の画像から独立しながら,Multi30K En-DeおよびEn-Frデータセット上での最先端性能を実現することを示す。
関連論文リスト
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Improved Masked Image Generation with Token-Critic [16.749458173904934]
本稿では,非自己回帰型生成変換器のサンプリングを誘導する補助モデルであるToken-Criticを紹介する。
最先端の生成変換器は、その性能を著しく向上させ、生成した画像品質と多様性のトレードオフの観点から、最近の拡散モデルやGANよりも優れている。
論文 参考訳(メタデータ) (2022-09-09T17:57:21Z) - Unsupervised Medical Image Translation with Adversarial Diffusion Models [0.2770822269241974]
ソース・トゥ・ターゲット・モダリティ変換による画像の欠落の計算は、医用画像プロトコルの多様性を向上させることができる。
本稿では, 医用画像翻訳の性能向上のための逆拡散モデルであるSynDiffを提案する。
論文 参考訳(メタデータ) (2022-07-17T15:53:24Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Paired Image-to-Image Translation Quality Assessment Using Multi-Method
Fusion [0.0]
本稿では,画像品質の信号のペア化と変換を併用して,後者の類似性と仮説的基底真理を推定する手法を提案する。
我々は,深部画像構造とテクスチャ類似性(DISTS)を予測するために,勾配型回帰器のアンサンブルを用いたマルチメソッドフュージョン(MMF)モデルを訓練した。
分析の結果,測定時間と予測精度の間にトレードオフが生じ,特徴制約を課すことが判明した。
論文 参考訳(メタデータ) (2022-05-09T11:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。