論文の概要: Visual Grounding in Video for Unsupervised Word Translation
- arxiv url: http://arxiv.org/abs/2003.05078v2
- Date: Thu, 26 Mar 2020 15:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:20:03.685957
- Title: Visual Grounding in Video for Unsupervised Word Translation
- Title(参考訳): 教師なし翻訳のためのビデオにおける視覚的グラウンドイング
- Authors: Gunnar A. Sigurdsson, Jean-Baptiste Alayrac, Aida Nematzadeh, Lucas
Smaira, Mateusz Malinowski, Jo\~ao Carreira, Phil Blunsom, Andrew Zisserman
- Abstract要約: 我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
- 参考スコア(独自算出の注目度): 91.47607488740647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are thousands of actively spoken languages on Earth, but a single
visual world. Grounding in this visual world has the potential to bridge the
gap between all these languages. Our goal is to use visual grounding to improve
unsupervised word mapping between languages. The key idea is to establish a
common visual representation between two languages by learning embeddings from
unpaired instructional videos narrated in the native language. Given this
shared embedding we demonstrate that (i) we can map words between the
languages, particularly the 'visual' words; (ii) that the shared embedding
provides a good initialization for existing unsupervised text-based word
translation techniques, forming the basis for our proposed hybrid visual-text
mapping algorithm, MUVE; and (iii) our approach achieves superior performance
by addressing the shortcomings of text-based methods -- it is more robust,
handles datasets with less commonality, and is applicable to low-resource
languages. We apply these methods to translate words from English to French,
Korean, and Japanese -- all without any parallel corpora and simply by watching
many videos of people speaking while doing things.
- Abstract(参考訳): 地球上には何千もの活発な言語があるが、単一の視覚世界がある。
この視覚的な世界では、これらの言語間のギャップを埋める可能性がある。
私たちのゴールは、言語間の教師なしワードマッピングを改善するためにビジュアルグラウンドを使用することです。
キーとなるアイデアは、ネイティブ言語でナレーションされたあいまいなインストラクションビデオからの埋め込みを学習することで、2つの言語間の共通の視覚的表現を確立することである。
この共有埋め込みを考えると
(i)言語、特に「視覚的」単語間の単語をマッピングできます。
(II)共有埋め込みは、既存の教師なしテキストベースの単語翻訳技術に対して優れた初期化を提供し、提案したハイブリッドビジュアルテキストマッピングアルゴリズムMUVEの基礎を形成する。
3)本手法は,テキストベースの手法の欠点に対処し,より堅牢で,より共通性の低いデータセットを処理し,低リソース言語に適用することで,優れたパフォーマンスを実現する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用します。
関連論文リスト
- Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Visual Grounding of Inter-lingual Word-Embeddings [6.136487946258519]
本研究では,単語埋め込みの言語間視覚的基盤について検討する。
実験では、英語、アラビア語、ドイツ語の3つの言語に焦点を当てています。
実験により,言語間知識が類似言語における接地埋め込みの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-09-08T11:18:39Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Globetrotter: Unsupervised Multilingual Translation from Visual
Alignment [24.44204156935044]
視覚的モダリティを用いて複数の言語を整列させるフレームワークを提案する。
言語と画像のクロスモーダルアライメントを推定し,この推定値を用いて言語間表現の学習を指導する。
私たちの言語表現は、1つのステージを持つ1つのモデルで共同で訓練されます。
論文 参考訳(メタデータ) (2020-12-08T18:50:40Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。