論文の概要: Visually Grounded Continual Learning of Compositional Phrases
- arxiv url: http://arxiv.org/abs/2005.00785v5
- Date: Tue, 17 Nov 2020 03:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:35:20.012850
- Title: Visually Grounded Continual Learning of Compositional Phrases
- Title(参考訳): 構成句の視覚的接地連続学習
- Authors: Xisen Jin, Junyi Du, Arka Sadhu, Ram Nevatia, Xiang Ren
- Abstract要約: VisCOLLは、ストリーミング視覚シーンからの合成フレーズの連続的な取得をシミュレートする。
モデルは、シフトするオブジェクト分布を持つペア画像キャプチャストリームでトレーニングされる。
それらは、ホールドアウトテストセット上で、視覚的にグラウンド化されたマスク付き言語予測タスクによって常に評価される。
- 参考スコア(独自算出の注目度): 45.60521849859337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans acquire language continually with much more limited access to data
samples at a time, as compared to contemporary NLP systems. To study this
human-like language acquisition ability, we present VisCOLL, a visually
grounded language learning task, which simulates the continual acquisition of
compositional phrases from streaming visual scenes. In the task, models are
trained on a paired image-caption stream which has shifting object
distribution; while being constantly evaluated by a visually-grounded masked
language prediction task on held-out test sets. VisCOLL compounds the
challenges of continual learning (i.e., learning from continuously shifting
data distribution) and compositional generalization (i.e., generalizing to
novel compositions). To facilitate research on VisCOLL, we construct two
datasets, COCO-shift and Flickr-shift, and benchmark them using different
continual learning methods. Results reveal that SoTA continual learning
approaches provide little to no improvements on VisCOLL, since storing examples
of all possible compositions is infeasible. We conduct further ablations and
analysis to guide future work.
- Abstract(参考訳): 人間は、現代のNLPシステムと比較して、一度にデータサンプルへのアクセスがはるかに制限されたまま、言語を継続的に取得する。
この人間の言語習得能力を研究するために,映像シーンからの合成フレーズの連続的獲得をシミュレートした視覚的基礎言語学習タスクVisCOLLを提案する。
このタスクでは、モデルがオブジェクトの分布をシフトするペアイメージキャプチャストリームでトレーニングされると同時に、ホールドアウトテストセット上で視覚的に接地したマスク付き言語予測タスクによって常に評価される。
VisCOLLは、連続的な学習(すなわち、連続的なデータ分布のシフトから学ぶ)と構成一般化(すなわち、新しい構成に一般化する)の課題を合成する。
VisCOLLの研究を容易にするために、COCOシフトとFlickrシフトという2つのデータセットを構築し、異なる連続学習手法を用いてそれらをベンチマークする。
結果から, sota連続学習のアプローチは, 全合成のサンプルを格納することは不可能であるため, 粘性についてほとんど, まったく改善しないことが明らかとなった。
今後の作業の指針として,さらなる改善と分析を実施します。
関連論文リスト
- In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Continual Contrastive Spoken Language Understanding [33.09005399967931]
COCONUTは、経験リプレイとコントラスト学習の組み合わせに依存するクラスインクリメンタルラーニング(CIL)手法である。
我々は,COCONUTをデコーダ側で動作するメソッドと組み合わせることで,さらなるメトリクス改善を実現することを示す。
論文 参考訳(メタデータ) (2023-10-04T10:09:12Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Meta-Learning with Sparse Experience Replay for Lifelong Language
Learning [26.296412053816233]
本稿では,スパース体験を再現したメタラーニングに基づく言語タスクの生涯学習のための新しいアプローチを提案する。
本研究では,タスクのストリーム上で1回のパスを実行するという現実的な設定の下で,生涯のテキスト分類と関係抽出に関する最先端結果を得る。
論文 参考訳(メタデータ) (2020-09-10T14:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。