論文の概要: Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage
- arxiv url: http://arxiv.org/abs/2005.00246v1
- Date: Fri, 1 May 2020 06:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:44:15.625730
- Title: Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage
- Title(参考訳): Webスケール言語被覆のためのPivot安定化を用いたクロスモーダル言語生成
- Authors: Ashish V. Thapliyal and Radu Soricut
- Abstract要約: 画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.71195344840051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal language generation tasks such as image captioning are directly
hurt in their ability to support non-English languages by the trend of
data-hungry models combined with the lack of non-English annotations. We
investigate potential solutions for combining existing language-generation
annotations in English with translation capabilities in order to create
solutions at web-scale in both domain and language coverage. We describe an
approach called Pivot-Language Generation Stabilization (PLuGS), which
leverages directly at training time both existing English annotations (gold
data) as well as their machine-translated versions (silver data); at run-time,
it generates first an English caption and then a corresponding target-language
caption. We show that PLuGS models outperform other candidate solutions in
evaluations performed over 5 different target languages, under a large-domain
testset using images from the Open Images dataset. Furthermore, we find an
interesting effect where the English captions generated by the PLuGS models are
better than the captions generated by the original, monolingual English model.
- Abstract(参考訳): 画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、非英語言語をサポートする能力を損なう。
英語の既存の言語生成アノテーションと翻訳機能を組み合わせた潜在的なソリューションを調査し、webスケールでドメインと言語の両方をカバーするソリューションを作成する。
既存の英語アノテーション(ゴールドデータ)と機械翻訳バージョン(シルバーデータ)の両方をトレーニング時に直接利用するpivot-language generation stabilization (plugs) というアプローチを,実行時に最初に英語キャプションを生成し,対応するターゲット言語キャプションを生成する。
PLuGSモデルは,Open Imagesデータセットの画像を用いた大領域テストセットの下で,5つの異なるターゲット言語上で実行された評価において,他の候補ソリューションよりも優れていることを示す。
さらに、PLuGSモデルによって生成された英語キャプションが、元のモノリンガル英語モデルによって生成されたキャプションよりも優れているという興味深い効果を見出した。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文 参考訳(メタデータ) (2021-04-16T21:49:12Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - UNISON: Unpaired Cross-lingual Image Captioning [17.60054750276632]
本稿では,ソースや対象言語の字幕コーパスに頼らずに画像キャプションを生成する,新たな非ペア型クロスランガル手法を提案する。
具体的には、2つのフェーズから構成される: (i) パラレル (bitext) コーパスを利用して、シーングラフ符号化空間内のソースからターゲット言語へのマッピングを学習し、ターゲット言語内の文をデコードする (ii) エンコードされたシーングラフの特徴を画像モダリティから言語モダリティへマッピングする (i) クロスモーダルな非教師なし特徴マッピングである。
論文 参考訳(メタデータ) (2020-10-03T06:14:06Z) - Denoising Large-Scale Image Captioning from Alt-text Data using Content
Selection Models [25.86785379429413]
コンテンツワードをスケルトンとして選択することは、改良された発音されたキャプションを生成するのに役立ちます。
また、予測された英語の骨格をさらに言語横断的に活用し、非英語の字幕を生成することも示している。
また、骨格に基づく予測により、長さ、内容、性別表現などのキャプション特性をよりよく制御できることを示す。
論文 参考訳(メタデータ) (2020-09-10T23:31:38Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。