論文の概要: A Computational Acquisition Model for Multimodal Word Categorization
- arxiv url: http://arxiv.org/abs/2205.05974v1
- Date: Thu, 12 May 2022 09:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:49:42.322711
- Title: A Computational Acquisition Model for Multimodal Word Categorization
- Title(参考訳): マルチモーダル単語分類のための計算的獲得モデル
- Authors: Uri Berger, Gabriel Stanovsky, Omri Abend, Lea Frermann
- Abstract要約: 本稿では, イメージ・キャプション・ペアから学習した, 認知に着想を得たマルチモーダル獲得モデルを提案する。
本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
- 参考スコア(独自算出の注目度): 35.82822305925811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised modeling of text and images open new
opportunities for computational models of child language acquisition, which is
believed to rely heavily on cross-modal signals. However, prior studies have
been limited by their reliance on vision models trained on large image datasets
annotated with a pre-defined set of depicted object categories. This is (a) not
faithful to the information children receive and (b) prohibits the evaluation
of such models with respect to category learning tasks, due to the pre-imposed
category structure. We address this gap, and present a cognitively-inspired,
multimodal acquisition model, trained from image-caption pairs on naturalistic
data using cross-modal self-supervision. We show that the model learns word
categories and object recognition abilities, and presents trends reminiscent of
those reported in the developmental literature. We make our code and trained
models public for future reference and use.
- Abstract(参考訳): テキストと画像の自己教師ありモデリングの最近の進歩は、クロスモーダル信号に重きを置き、児童言語獲得の計算モデルに新たな機会を与えている。
しかし、先行研究は、事前に定義された対象カテゴリのセットで注釈付けされた大きな画像データセットで訓練されたビジョンモデルに依存することで制限されている。
これは
(a)子どもが受ける情報に忠実でないこと
b) 事前提案されたカテゴリー構造のため, カテゴリー学習タスクに関するモデルの評価を禁止している。
我々は,このギャップに対処し,クロスモーダル・セルフ・スーパービジョンを用いた自然データに対するイメージ・キャプチャペアから学習した認知的インスパイアされたマルチモーダル獲得モデルを提案する。
本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
将来の参照と使用のために、コードとトレーニングされたモデルを公開します。
関連論文リスト
- Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use [14.2527771630478]
本稿では,人間のラベリングを自然言語操作に置き換えることで,手作業の軽減を図る新しいフレームワークを提案する。
当社のフレームワークは,クラウドソースアノテーションの必要性を排除している。
トレーニングされたモデルは、従来のアジャイルモデリングや最先端のゼロショット分類モデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-05T03:34:11Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。