論文の概要: A Computational Acquisition Model for Multimodal Word Categorization
- arxiv url: http://arxiv.org/abs/2205.05974v1
- Date: Thu, 12 May 2022 09:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:49:42.322711
- Title: A Computational Acquisition Model for Multimodal Word Categorization
- Title(参考訳): マルチモーダル単語分類のための計算的獲得モデル
- Authors: Uri Berger, Gabriel Stanovsky, Omri Abend, Lea Frermann
- Abstract要約: 本稿では, イメージ・キャプション・ペアから学習した, 認知に着想を得たマルチモーダル獲得モデルを提案する。
本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
- 参考スコア(独自算出の注目度): 35.82822305925811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised modeling of text and images open new
opportunities for computational models of child language acquisition, which is
believed to rely heavily on cross-modal signals. However, prior studies have
been limited by their reliance on vision models trained on large image datasets
annotated with a pre-defined set of depicted object categories. This is (a) not
faithful to the information children receive and (b) prohibits the evaluation
of such models with respect to category learning tasks, due to the pre-imposed
category structure. We address this gap, and present a cognitively-inspired,
multimodal acquisition model, trained from image-caption pairs on naturalistic
data using cross-modal self-supervision. We show that the model learns word
categories and object recognition abilities, and presents trends reminiscent of
those reported in the developmental literature. We make our code and trained
models public for future reference and use.
- Abstract(参考訳): テキストと画像の自己教師ありモデリングの最近の進歩は、クロスモーダル信号に重きを置き、児童言語獲得の計算モデルに新たな機会を与えている。
しかし、先行研究は、事前に定義された対象カテゴリのセットで注釈付けされた大きな画像データセットで訓練されたビジョンモデルに依存することで制限されている。
これは
(a)子どもが受ける情報に忠実でないこと
b) 事前提案されたカテゴリー構造のため, カテゴリー学習タスクに関するモデルの評価を禁止している。
我々は,このギャップに対処し,クロスモーダル・セルフ・スーパービジョンを用いた自然データに対するイメージ・キャプチャペアから学習した認知的インスパイアされたマルチモーダル獲得モデルを提案する。
本モデルでは,単語のカテゴリとオブジェクト認識能力について学習し,発達文献で報告されたような傾向を示す。
将来の参照と使用のために、コードとトレーニングされたモデルを公開します。
関連論文リスト
- Multimodal Few-Shot Object Detection with Meta-Learning Based
Cross-Modal Prompting [77.69172089359606]
マルチモーダルな少数ショットオブジェクト検出法について,少数ショット視覚例とクラス意味情報の両方を用いて検討した。
我々のモデルは、トークンレベルと特徴レベルの両方で視覚情報と意味情報を効率的に融合させることができる。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Geometric and Topological Inference for Deep Representations of Complex
Networks [13.173307471333619]
我々は、トポロジと表現の幾何学を強調する統計のクラスを提示する。
モデル選択に使用する場合の感度と特異性の観点から,これらの統計値を評価する。
これらの新しい手法により、脳やコンピューター科学者は、脳やモデルによって学習された動的表現変換を可視化することができる。
論文 参考訳(メタデータ) (2022-03-10T17:14:14Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.197297667550885]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in
Multimodal Transformers [15.826109118064716]
事前訓練された視覚と言語 BERT は、両方のモダリティから情報を組み合わせた表現を学習することを目的としている。
本稿では,モーダル間入力アブレーションに基づく診断手法を提案し,それらのモデルが実際にモーダル間情報を統合する程度を評価する。
論文 参考訳(メタデータ) (2021-09-09T17:47:50Z) - Visual Conceptual Blending with Large-scale Language and Vision Models [54.251383721475655]
言語モデルを用いて2つのブレンドの単一文記述を生成する。
テキストベース画像生成モデルを用いてブレンドの視覚的描写を生成する。
論文 参考訳(メタデータ) (2021-06-27T02:48:39Z) - Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。
対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文 参考訳(メタデータ) (2021-04-30T12:05:23Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。