論文の概要: World-to-Words: Grounded Open Vocabulary Acquisition through Fast
Mapping in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2306.08685v1
- Date: Wed, 14 Jun 2023 18:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:40:02.936586
- Title: World-to-Words: Grounded Open Vocabulary Acquisition through Fast
Mapping in Vision-Language Models
- Title(参考訳): World-to-Words:視覚言語モデルにおける高速マッピングによる接地型オープン語彙獲得
- Authors: Ziqiao Ma, Jiayi Pan, Joyce Chai
- Abstract要約: 我々は,オープンワールド言語学習における接地とブートストラップを検討するために,GOVA(Grounded Open Vocabulary Acquisition)を導入した。
目的としてグラウンドを強調表示する画像テキストペアを事前学習することで、新しい視覚的グラウンド言語モデルであるオブジェクト指向BERT(OctoBERT)を提案する。
我々は,OctoBERTがよりコヒーレントで高速な接地単語学習者であり,事前学習中に得られた接地能力が,未知語をより迅速かつ堅牢に学習する上で有効であることを実証した。
- 参考スコア(独自算出の注目度): 6.47452771256903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to connect language units to their referents in the physical
world, referred to as grounding, is crucial to learning and understanding
grounded meanings of words. While humans demonstrate fast mapping in new word
learning, it remains unclear whether modern vision-language models can truly
represent language with their grounded meanings and how grounding may further
bootstrap new word learning. To this end, we introduce Grounded Open Vocabulary
Acquisition (GOVA) to examine grounding and bootstrapping in open-world
language learning. As an initial attempt, we propose object-oriented BERT
(OctoBERT), a novel visually-grounded language model by pre-training on
image-text pairs highlighting grounding as an objective. Through extensive
experiments and analysis, we demonstrate that OctoBERT is a more coherent and
fast grounded word learner, and that the grounding ability acquired during
pre-training helps the model to learn unseen words more rapidly and robustly.
Our code is available at https://github.com/sled-group/world-to-words
- Abstract(参考訳): 言語単位を物理的世界の参照元とつなぐ能力は「接地」と呼ばれ、単語の基底的意味の学習と理解に不可欠である。
人間は新しい単語学習で高速マッピングを実証するが、現代視覚言語モデルがその基礎的意味を持つ言語を真に表現できるかどうか、新しい単語学習をさらにブートストラップする方法については定かではない。
この目的のために、オープンワールド言語学習における接地とブートストラップを検討するために、GOVA(Grounded Open Vocabulary Acquisition)を導入する。
最初の試みとして,オブジェクト指向bert(10月)を提案する。これは,接地を目的として強調する画像とテキストのペアを事前学習することで,視覚的に接地した新しい言語モデルである。
実験や分析を通じて、OctoBERTはより一貫性があり、高速な単語学習者であり、事前学習中に得られる接地能力は、未知の単語をより迅速かつ堅牢に学習する上で有効であることを示した。
私たちのコードはhttps://github.com/sled-group/world-to-wordsで利用可能です。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - CoLLEGe: Concept Embedding Generation for Large Language Models [12.812113254812028]
CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。
我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:26:05Z) - Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。