論文の概要: Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data
- arxiv url: http://arxiv.org/abs/2411.00828v1
- Date: Tue, 29 Oct 2024 10:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:05.335177
- Title: Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data
- Title(参考訳): Dreaming Out Loud: 発達可能データを用いた視覚言語モデルの学習のための自己合成アプローチ
- Authors: Badr AlKhamissi, Yingtian Tang, Abdülkadir Gökce, Johannes Mehrer, Martin Schrimpf,
- Abstract要約: 人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
- 参考スコア(独自算出の注目度): 3.1715756370116637
- License:
- Abstract: While today's large language models exhibit impressive abilities in generating human-like text, they require massive amounts of data during training. We here take inspiration from human cognitive development to train models in limited data conditions. Specifically we present a self-synthesis approach that iterates through four phases: Phase 1 sets up fundamental language abilities, training the model from scratch on a small corpus. Language is then associated with the visual environment in phase 2, integrating the model with a vision encoder to generate descriptive captions from labeled images. In the "self-synthesis" phase 3, the model generates captions for unlabeled images, that it then uses to further train its language component with a mix of synthetic, and previous real-world text. This phase is meant to expand the model's linguistic repertoire, similar to humans self-annotating new experiences. Finally, phase 4 develops advanced cognitive skills, by training the model on specific tasks such as visual question answering and reasoning. Our approach offers a proof of concept for training a multimodal model using a developmentally plausible amount of data.
- Abstract(参考訳): 今日の大きな言語モデルは、人間のようなテキストを生成する素晴らしい能力を示していますが、トレーニング中に大量のデータが必要です。
ここでは、人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
フェーズ1は基本的な言語能力を設定し、小さなコーパスでモデルをスクラッチからトレーニングする。
次に、言語はフェーズ2の視覚環境と関連付けられ、モデルとビジョンエンコーダを統合してラベル付き画像から記述的なキャプションを生成する。
自己合成」フェーズ3では、モデルがラベルのない画像のキャプションを生成し、その後、合成された以前の実世界のテキストを混ぜて言語コンポーネントをさらに訓練するために使用される。
このフェーズは、人間が新たな経験を自己注釈するのと同じように、モデルの言語的レパートリーを拡張することを目的としている。
最後に、第4相は、視覚的質問応答や推論といった特定のタスクでモデルを訓練することで、高度な認知スキルを発達させる。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Language Model-Based Paired Variational Autoencoders for Robotic Language Learning [18.851256771007748]
人間の幼児と同様、人工エージェントは環境と対話しながら言語を学ぶことができる。
本稿では,ロボットの動作と言語記述を双方向に結合するニューラルモデルを提案する。
次に, PVAE-BERTを導入し, 事前訓練された大規模言語モデルとモデルを同調する。
論文 参考訳(メタデータ) (2022-01-17T10:05:26Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。