論文の概要: Acquiring Linguistic Knowledge from Multimodal Input
- arxiv url: http://arxiv.org/abs/2402.17936v1
- Date: Tue, 27 Feb 2024 23:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:56:16.900070
- Title: Acquiring Linguistic Knowledge from Multimodal Input
- Title(参考訳): マルチモーダル入力から言語知識を得る
- Authors: Theodor Amariucai, Alex Warstadt
- Abstract要約: 子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
我々は、このデータ効率ギャップは、典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化によって生じるという仮説を検証した。
- 参考スコア(独自算出の注目度): 10.965306219502303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contrast to children, language models (LMs) exhibit considerably inferior
data efficiency when acquiring language. In this submission to the BabyLM
Challenge (Warstadt et al., 2023), we test the hypothesis that this data
efficiency gap is partly caused by a lack of multimodal input and grounding in
the learning environment of typical language models. Although previous work
looking into this question found that multimodal training can even harm
language-only performance, we speculate that these findings can be attributed
to catastrophic forgetting of complex language due to fine-tuning on captions
data. To test our hypothesis, we perform an ablation study on FLAVA (Singh et
al., 2022), a multimodal vision-and-language model, independently varying the
volume of text and vision input to quantify how much text data (if any) can be
offset by vision at different data scales. We aim to limit catastrophic
forgetting through a multitask pretraining regime that includes unimodal
text-only tasks and data sampled from WiT, the relatively diverse
Wikipedia-based dataset (Srinivasan et al., 2021). Our results are largely
negative: Multimodal pretraining does not harm our models' language performance
but does not consistently help either. That said, our conclusions are limited
by our having been able to conduct only a small number of runs. While we must
leave open the possibility that multimodal input explains some of the gap in
data efficiency between LMs and humans, positive evidence for this hypothesis
will require better architectures and techniques for multimodal training.
- Abstract(参考訳): 子どもとは対照的に、言語モデル(LM)は言語習得時のデータ効率が著しく劣っている。
本稿では,BabyLM Challenge (Warstadt et al., 2023) への投稿において,このデータ効率ギャップは,典型的な言語モデルの学習環境におけるマルチモーダル入力の欠如と基礎化に起因するという仮説を検証した。
これまでの研究では、マルチモーダルトレーニングは言語のみのパフォーマンスを損なう可能性があるが、キャプションデータの微調整によって複雑な言語を壊滅的に忘れてしまうことに起因していると推測されている。
本仮説を検証するために,FLAVA (Singh et al., 2022) というマルチモーダル・ビジョン・アンド・ランゲージ・モデルを用いて,テキストと視覚入力のボリュームを独立に変化させて,異なるデータスケールでのビジョンによってどの程度のテキストデータがオフセットできるかを定量化する。
我々は,ウィキペディアをベースとした比較的多様なデータセットであるWiT(Srinivasan et al., 2021)からサンプリングされたテキストのみのタスクとデータを含むマルチタスク事前学習システムを通じて,破滅的な忘れを抑えることを目的としている。
マルチモーダル事前トレーニングは、私たちのモデルの言語性能に影響を与えませんが、一貫しては役に立ちません。
とは言っても、私たちの結論は、少数の実行しかできなかったことによるものです。
マルチモーダル入力は、LMと人間の間のデータ効率のギャップの一部を説明できる可能性を広げなければならないが、この仮説の肯定的な証拠は、マルチモーダルトレーニングのためのより良いアーキテクチャと技術を必要とするだろう。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Super-Prompting: Utilizing Model-Independent Contextual Data to Reduce
Data Annotation Required in Visual Commonsense Tasks [3.42658286826597]
我々は,言語モデルとマルチモーダル因果変換器モデルの両方における結果を改善するために,異なるプロンプトベースの微調整手法を解析する。
以上の結果から,モデルに依存しないインシデントベースの微調整により,微調整データセットの35%~40%のみを用いて,同等の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T18:56:55Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。