論文の概要: VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer
- arxiv url: http://arxiv.org/abs/2107.02681v1
- Date: Tue, 6 Jul 2021 15:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 14:05:42.462023
- Title: VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer
- Title(参考訳): VidLanKD:ビデオ拡散知識伝達による言語理解の改善
- Authors: Zineng Tang, Jaemin Cho, Hao Tan, Mohit Bansal
- Abstract要約: 言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 76.3906723777229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since visual perception can give rich information beyond text descriptions
for world understanding, there has been increasing interest in leveraging
visual grounding for language learning. Recently, vokenization has attracted
attention by using the predictions of a text-to-image retrieval model as labels
for language model supervision. Despite its success, the method suffers from
approximation error of using finite image labels and the lack of vocabulary
diversity of a small image-text dataset. To overcome these limitations, we
present VidLanKD, a video-language knowledge distillation method for improving
language understanding. We train a multi-modal teacher model on a video-text
dataset, and then transfer its knowledge to a student language model with a
text dataset. To avoid approximation error, we propose to use different
knowledge distillation objectives. In addition, the use of a large-scale
video-text dataset helps learn diverse and richer vocabularies. In our
experiments, VidLanKD achieves consistent improvements over text-only language
models and vokenization models, on several downstream language understanding
tasks including GLUE, SQuAD, and SWAG. We also demonstrate the improved world
knowledge, physical reasoning, and temporal reasoning capabilities of our model
by evaluating on the GLUE-diagnostics, PIQA, and TRACIE datasets. Lastly, we
present comprehensive ablation studies as well as visualizations of the learned
text-to-video grounding results of our teacher and student language models. Our
code and models are available at: https://github.com/zinengtang/VidLanKD
- Abstract(参考訳): 視覚知覚は、世界理解のためのテキスト記述を超えた豊富な情報を与えることができるため、言語学習における視覚基盤の活用への関心が高まっている。
近年,テキスト・画像間検索モデルの予測を言語モデル監督のためのラベルとして用いることで,ボケ化が注目されている。
その成功にもかかわらず、この方法は有限画像ラベルの使用の近似誤差と、小さな画像テキストデータセットの語彙多様性の欠如に苦しむ。
そこで,これらの限界を克服するために,映像言語知識蒸留法vidlankdを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
近似誤差を避けるために, 異なる知識蒸留目的を用いることを提案する。
さらに、大規模なビデオテキストデータセットを使用することで、多様で豊かな語彙を学ぶことができる。
我々の実験では、VidLanKDはGLUE、SQuAD、SWAGなどの下流言語理解タスクにおいて、テキストのみの言語モデルと音声認識モデルに対して一貫した改善を実現している。
また, GLUE-diagnostics, PIQA, TRACIEデータセットを用いて, 世界の知識, 物理的推論, 時間的推論能力の向上を実証した。
最後に,包括的アブレーション研究と教師と生徒の言語モデルの学習テキストからビデオへの接地結果の可視化について述べる。
私たちのコードとモデルは、https://github.com/zinengtang/VidLanKDで利用可能です。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Expand BERT Representation with Visual Information via Grounded Language
Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。
提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-04T03:16:48Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。