論文の概要: Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision
- arxiv url: http://arxiv.org/abs/2010.06775v1
- Date: Wed, 14 Oct 2020 02:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:18:36.514092
- Title: Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision
- Title(参考訳): Vokenization: コンテキスト化された視覚的なスーパービジョンによる言語理解の改善
- Authors: Hao Tan, Mohit Bansal
- Abstract要約: 我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
- 参考スコア(独自算出の注目度): 110.66085917826648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans learn language by listening, speaking, writing, reading, and also, via
interaction with the multimodal real world. Existing language pre-training
frameworks show the effectiveness of text-only self-supervision while we
explore the idea of a visually-supervised language model in this paper. We find
that the main reason hindering this exploration is the large divergence in
magnitude and distributions between the visually-grounded language datasets and
pure-language corpora. Therefore, we develop a technique named "vokenization"
that extrapolates multimodal alignments to language-only data by contextually
mapping language tokens to their related images (which we call "vokens"). The
"vokenizer" is trained on relatively small image captioning datasets and we
then apply it to generate vokens for large language corpora. Trained with these
contextually generated vokens, our visually-supervised language models show
consistent improvements over self-supervised alternatives on multiple
pure-language tasks such as GLUE, SQuAD, and SWAG. Code and pre-trained models
publicly available at https://github.com/airsplay/vokenization
- Abstract(参考訳): 人間は、マルチモーダルな現実世界との対話を通じて、聞き、話し、書く、読むなど、言語を学ぶ。
既存の言語事前学習フレームワークでは,テキストのみの自己教師付けの有効性を示しつつ,視覚教師付き言語モデルの考え方を考察する。
この探索を妨げている主な理由は、視覚的に接地された言語データセットと純粋言語コーパスの間の大きなばらつきと分布である。
そこで我々は,言語トークンを関連画像(vokensと呼ぶ)にコンテキストマッピングすることで,言語のみのデータにマルチモーダルアライメントを外挿する "vokenization" という手法を開発した。
vokenizer"は、比較的小さな画像キャプションデータセットでトレーニングされ、それを大言語コーパス用のvokenを生成するために適用します。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルは、GLUE、SQuAD、SWAGといった複数の純粋言語タスクにおいて、自己教師付き言語よりも一貫した改善を示す。
コードと事前トレーニング済みモデルはhttps://github.com/airsplay/vokenizationで公開されている。
関連論文リスト
- Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。
我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文 参考訳(メタデータ) (2023-06-29T08:20:57Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Improving Zero-Shot Multi-Lingual Entity Linking [14.502266106371433]
我々は、複数の言語における同言語知識ベースへの参照をリンクするように、1つのモデルが訓練される多言語エンティティリンクを考える。
テキストの多言語トランスフォーマー表現を利用して,多言語設定に容易に適用可能なニューラルネットワークローダアーキテクチャを提案する。
このアプローチを使用することで、いくつかのデータセットでのリコールが改善され、しばしば言語内のパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2021-04-16T12:50:07Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。