Fugu-MT 論文翻訳(概要): VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer

論文の概要: VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer

arxiv url: http://arxiv.org/abs/2107.02681v1
Date: Tue, 6 Jul 2021 15:41:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-07 14:05:42.462023
Title: VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer
Title（参考訳）: VidLanKD:ビデオ拡散知識伝達による言語理解の改善
Authors: Zineng Tang, Jaemin Cho, Hao Tan, Mohit Bansal
Abstract要約: 言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
参考スコア（独自算出の注目度）: 76.3906723777229
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since visual perception can give rich information beyond text descriptions for world understanding, there has been increasing interest in leveraging visual grounding for language learning. Recently, vokenization has attracted attention by using the predictions of a text-to-image retrieval model as labels for language model supervision. Despite its success, the method suffers from approximation error of using finite image labels and the lack of vocabulary diversity of a small image-text dataset. To overcome these limitations, we present VidLanKD, a video-language knowledge distillation method for improving language understanding. We train a multi-modal teacher model on a video-text dataset, and then transfer its knowledge to a student language model with a text dataset. To avoid approximation error, we propose to use different knowledge distillation objectives. In addition, the use of a large-scale video-text dataset helps learn diverse and richer vocabularies. In our experiments, VidLanKD achieves consistent improvements over text-only language models and vokenization models, on several downstream language understanding tasks including GLUE, SQuAD, and SWAG. We also demonstrate the improved world knowledge, physical reasoning, and temporal reasoning capabilities of our model by evaluating on the GLUE-diagnostics, PIQA, and TRACIE datasets. Lastly, we present comprehensive ablation studies as well as visualizations of the learned text-to-video grounding results of our teacher and student language models. Our code and models are available at: https://github.com/zinengtang/VidLanKD
Abstract（参考訳）: 視覚知覚は、世界理解のためのテキスト記述を超えた豊富な情報を与えることができるため、言語学習における視覚基盤の活用への関心が高まっている。近年,テキスト・画像間検索モデルの予測を言語モデル監督のためのラベルとして用いることで,ボケ化が注目されている。その成功にもかかわらず、この方法は有限画像ラベルの使用の近似誤差と、小さな画像テキストデータセットの語彙多様性の欠如に苦しむ。そこで,これらの限界を克服するために,映像言語知識蒸留法vidlankdを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。近似誤差を避けるために, 異なる知識蒸留目的を用いることを提案する。さらに、大規模なビデオテキストデータセットを使用することで、多様で豊かな語彙を学ぶことができる。我々の実験では、VidLanKDはGLUE、SQuAD、SWAGなどの下流言語理解タスクにおいて、テキストのみの言語モデルと音声認識モデルに対して一貫した改善を実現している。また, GLUE-diagnostics, PIQA, TRACIEデータセットを用いて, 世界の知識, 物理的推論, 時間的推論能力の向上を実証した。最後に,包括的アブレーション研究と教師と生徒の言語モデルの学習テキストからビデオへの接地結果の可視化について述べる。私たちのコードとモデルは、https://github.com/zinengtang/VidLanKDで利用可能です。

関連論文リスト

Impact of Language Guidance: A Reproducibility Study [0.0]
近年の自己教師型学習の進歩により,明示的なアノテーションを使わずに巨大なモデルを訓練することが可能になった。市販画像キャプションモデルBLIP-2を用いて,キャプションの置き換えと性能の向上を図る。また,解釈可能性に基づく自己教師付きモデルのセマンティック能力を評価するための新しい指標も考案した。
論文参考訳（メタデータ） (2025-04-10T21:59:13Z)
Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文参考訳（メタデータ） (2024-06-19T20:16:17Z)
Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。 LCGは学習効率において標準言語のみのモデルより優れている。 CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文参考訳（メタデータ） (2024-03-21T16:52:01Z)
Expand BERT Representation with Visual Information via Grounded Language Learning with Multimodal Partial Alignment [11.148099070407431]
GroundedBERT(グラウンドドバート)は、視覚的にグラウンドドされた情報でBERT表現を強化する、グラウンドド言語学習法である。提案手法は,GLUEおよびSQuADデータセットの様々な言語タスクにおいて,ベースライン言語モデルよりも有意に優れている。
論文参考訳（メタデータ） (2023-12-04T03:16:48Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。