論文の概要: Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment
- arxiv url: http://arxiv.org/abs/2312.01592v2
- Date: Tue, 9 Jan 2024 10:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 19:33:23.281030
- Title: Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment
- Title(参考訳): マルチモーダル部分アライメントを用いた接地言語学習による視覚情報によるBERT表現の拡張
- Authors: Cong-Duy Nguyen, The-Anh Vu-Le, Thong Nguyen, Tho Quan, Luu Anh Tuan
- Abstract要約: GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
- 参考スコア(独自算出の注目度): 11.148099070407431
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models have been supervised with both language-only objective and
visual grounding in existing studies of visual-grounded language learning.
However, due to differences in the distribution and scale of visual-grounded
datasets and language corpora, the language model tends to mix up the context
of the tokens that occurred in the grounded data with those that do not. As a
result, during representation learning, there is a mismatch between the visual
information and the contextual meaning of the sentence. To overcome this
limitation, we propose GroundedBERT - a grounded language learning method that
enhances the BERT representation with visually grounded information.
GroundedBERT comprises two components: (i) the original BERT which captures the
contextual representation of words learned from the language corpora, and (ii)
a visual grounding module which captures visual information learned from
visual-grounded datasets. Moreover, we employ Optimal Transport (OT),
specifically its partial variant, to solve the fractional alignment problem
between the two modalities. Our proposed method significantly outperforms the
baseline language models on various language tasks of the GLUE and SQuAD
datasets.
- Abstract(参考訳): 言語モデルは、既存の視覚基盤言語学習の研究において、言語のみの目的と視覚の両方で監督されている。
しかし、視覚的なデータセットと言語コーパスの分布と規模の違いにより、言語モデルは、基底データで発生したトークンと、そうでないトークンのコンテキストを混合する傾向にある。
その結果、表現学習中に、視覚情報と文の文脈的意味との間にはミスマッチがある。
この制限を克服するために,視覚的基盤情報でBERT表現を強化する接地言語学習法である GroundedBERT を提案する。
GroundedBERTは2つのコンポーネントから構成される。
(i)言語コーパスから学習した単語の文脈表現をキャプチャする独自のBERT
(ii)視覚接地モジュールは、視覚接地データセットから得られた視覚情報をキャプチャする。
さらに,この2つのモダリティ間の分数アライメント問題を解くために,その部分的変種である最適輸送(ot)を用いる。
提案手法は,GLUEおよびSQuADデータセットの各種言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
関連論文リスト
- Leverage Points in Modality Shifts: Comparing Language-only and
Multimodal Word Representations [0.8594140167290097]
マルチモーダル埋め込みは、テキストのみのモデルと比較して、言語の神経表現における意味情報を豊かにすることを目的としている。
本稿では,3つの視覚・言語モデルと3つのテキストのみモデルからの単語埋め込みと,静的・文脈的表現との比較を行った。
これは、46のセマンティックパラメータを含む言語表現に対する視覚的接地の効果に関する最初の大規模研究である。
論文 参考訳(メタデータ) (2023-06-04T12:53:12Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - On the Language-specificity of Multilingual BERT and the Impact of
Fine-tuning [7.493779672689531]
multilingual BERT (mBERT) が獲得した知識は、言語固有のものと言語ニュートラルな2つのコンポーネントを持っている。
本稿では,2つのタスクの微調整の文脈において,それらの関係を解析する。
論文 参考訳(メタデータ) (2021-09-14T19:28:31Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。