Fugu-MT 論文翻訳(概要): World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

論文の概要: World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models

arxiv url: http://arxiv.org/abs/2306.08685v1
Date: Wed, 14 Jun 2023 18:10:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-16 17:40:02.936586
Title: World-to-Words: Grounded Open Vocabulary Acquisition through Fast Mapping in Vision-Language Models
Title（参考訳）: World-to-Words:視覚言語モデルにおける高速マッピングによる接地型オープン語彙獲得
Authors: Ziqiao Ma, Jiayi Pan, Joyce Chai
Abstract要約: 我々は,オープンワールド言語学習における接地とブートストラップを検討するために,GOVA(Grounded Open Vocabulary Acquisition)を導入した。目的としてグラウンドを強調表示する画像テキストペアを事前学習することで、新しい視覚的グラウンド言語モデルであるオブジェクト指向BERT(OctoBERT)を提案する。我々は,OctoBERTがよりコヒーレントで高速な接地単語学習者であり,事前学習中に得られた接地能力が,未知語をより迅速かつ堅牢に学習する上で有効であることを実証した。
参考スコア（独自算出の注目度）: 6.47452771256903
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to connect language units to their referents in the physical world, referred to as grounding, is crucial to learning and understanding grounded meanings of words. While humans demonstrate fast mapping in new word learning, it remains unclear whether modern vision-language models can truly represent language with their grounded meanings and how grounding may further bootstrap new word learning. To this end, we introduce Grounded Open Vocabulary Acquisition (GOVA) to examine grounding and bootstrapping in open-world language learning. As an initial attempt, we propose object-oriented BERT (OctoBERT), a novel visually-grounded language model by pre-training on image-text pairs highlighting grounding as an objective. Through extensive experiments and analysis, we demonstrate that OctoBERT is a more coherent and fast grounded word learner, and that the grounding ability acquired during pre-training helps the model to learn unseen words more rapidly and robustly. Our code is available at https://github.com/sled-group/world-to-words
Abstract（参考訳）: 言語単位を物理的世界の参照元とつなぐ能力は「接地」と呼ばれ、単語の基底的意味の学習と理解に不可欠である。人間は新しい単語学習で高速マッピングを実証するが、現代視覚言語モデルがその基礎的意味を持つ言語を真に表現できるかどうか、新しい単語学習をさらにブートストラップする方法については定かではない。この目的のために、オープンワールド言語学習における接地とブートストラップを検討するために、GOVA(Grounded Open Vocabulary Acquisition)を導入する。最初の試みとして,オブジェクト指向bert(10月)を提案する。これは,接地を目的として強調する画像とテキストのペアを事前学習することで,視覚的に接地した新しい言語モデルである。実験や分析を通じて、OctoBERTはより一貫性があり、高速な単語学習者であり、事前学習中に得られる接地能力は、未知の単語をより迅速かつ堅牢に学習する上で有効であることを示した。私たちのコードはhttps://github.com/sled-group/world-to-wordsで利用可能です。

関連論文リスト

What if Othello-Playing Language Models Could See? [81.14765602011055]
VISOTHELLOは移動履歴と基板画像に基づいて訓練されたマルチモーダルモデルである。マルチモーダルトレーニングは、内部表現の性能と堅牢性の両方を改善する。
論文参考訳（メタデータ） (2025-07-19T07:47:55Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
CoLLEGe: Concept Embedding Generation for Large Language Models [12.812113254812028]
CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
論文参考訳（メタデータ） (2024-03-22T17:26:05Z)
Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。 LCGは学習効率において標準言語のみのモデルより優れている。 CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文参考訳（メタデータ） (2024-03-21T16:52:01Z)
Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文参考訳（メタデータ） (2023-07-31T17:57:49Z)
Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文参考訳（メタデータ） (2022-06-17T15:04:05Z)
Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文参考訳（メタデータ） (2022-04-04T17:57:11Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)
Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文参考訳（メタデータ） (2020-03-11T02:03:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。