論文の概要: Iterated Learning Improves Compositionality in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.02145v2
- Date: Wed, 17 Apr 2024 01:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:31:46.760822
- Title: Iterated Learning Improves Compositionality in Large Vision-Language Models
- Title(参考訳): 反復学習は大規模視覚言語モデルにおける構成性を改善する
- Authors: Chenhao Zheng, Jieyu Zhang, Aniruddha Kembhavi, Ranjay Krishna,
- Abstract要約: 本稿では,構成性にインセンティブを与える新しい反復学習アルゴリズムを提案する。
我々は、視覚エージェントと言語エージェントの間のルイスシグナリングゲームとして、視覚言語によるコントラスト学習を再構成した。
CC3MとCC12Mでトレーニングしたモデルでは,SugarCrepeベンチマークで標準CLIPを4.7%,4.0%改善した。
- 参考スコア(独自算出の注目度): 45.09508153586721
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A fundamental characteristic common to both human vision and natural language is their compositional nature. Yet, despite the performance gains contributed by large vision and language pretraining, recent investigations find that most-if not all-our state-of-the-art vision-language models struggle at compositionality. They are unable to distinguish between images of " a girl in white facing a man in black" and "a girl in black facing a man in white". Moreover, prior work suggests that compositionality doesn't arise with scale: larger model sizes or training data don't help. This paper develops a new iterated training algorithm that incentivizes compositionality. We draw on decades of cognitive science research that identifies cultural transmission-the need to teach a new generation-as a necessary inductive prior that incentivizes humans to develop compositional languages. Specifically, we reframe vision-language contrastive learning as the Lewis Signaling Game between a vision agent and a language agent, and operationalize cultural transmission by iteratively resetting one of the agent's weights during training. After every iteration, this training paradigm induces representations that become "easier to learn", a property of compositional languages: e.g. our model trained on CC3M and CC12M improves standard CLIP by 4.7%, 4.0% respectfully in the SugarCrepe benchmark.
- Abstract(参考訳): 人間の視覚と自然言語の両方に共通する基本的な特徴は、その構成的性質である。
しかし、大きなビジョンと言語の事前訓練によるパフォーマンス向上にもかかわらず、最近の調査では、すべての最先端のビジョン言語モデルは構成性に苦しむ。
彼らは「黒の男に面した白の少女」と「白の男に面した黒の少女」のイメージを区別できない。
さらに、以前の研究は、構成性はスケールで発生しないことを示唆している。
本稿では,構成性にインセンティブを与える新しい反復学習アルゴリズムを提案する。
文化的な伝達を識別する認知科学研究は、人間に作曲言語を開発する動機を与える前に、新しい世代をインダクティブとして教える必要がある。
具体的には、視覚エージェントと言語エージェントのルイスシグナリングゲームとして視覚言語コントラスト学習を再構成し、トレーニング中のエージェントの重みの1つを反復的にリセットすることで文化的伝達を運用する。
例えば、CC3MとCC12Mでトレーニングされた私たちのモデルは、SugarCrepeベンチマークにおいて、標準のCLIPを4.7%改善します。
関連論文リスト
- Dreaming Out Loud: A Self-Synthesis Approach For Training Vision-Language Models With Developmentally Plausible Data [3.1715756370116637]
人間の認知発達からインスピレーションを得て、限られたデータ条件下でモデルをトレーニングします。
我々の手法は、発達的に妥当な量のデータを用いてマルチモーダルモデルを訓練するための概念実証を提供する。
論文 参考訳(メタデータ) (2024-10-29T10:50:03Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Co-evolution of language and agents in referential games [24.708802957946467]
言語学習者の学習バイアスを考慮し,言語とエージェントを共進化させることが最適であることを示す。
言語発生研究における言語共進化の解明の道を開く。
論文 参考訳(メタデータ) (2020-01-10T09:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。