論文の概要: Learning word-referent mappings and concepts from raw inputs
- arxiv url: http://arxiv.org/abs/2003.05573v1
- Date: Thu, 12 Mar 2020 02:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:28:59.514926
- Title: Learning word-referent mappings and concepts from raw inputs
- Title(参考訳): 生入力から単語参照マッピングと概念を学ぶ
- Authors: Wai Keen Vong, Brenden M. Lake
- Abstract要約: 我々は、生画像と単語を入力として取り込む自己スーパービジョンを通じて、ゼロからトレーニングされたニューラルネットワークモデルを提案する。
モデルは、新規な単語インスタンスに一般化し、シーン内の単語の参照者を特定し、相互排他性の好みを示す。
- 参考スコア(独自算出の注目度): 18.681222155879656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do children learn correspondences between the language and the world from
noisy, ambiguous, naturalistic input? One hypothesis is via cross-situational
learning: tracking words and their possible referents across multiple
situations allows learners to disambiguate correct word-referent mappings (Yu &
Smith, 2007). However, previous models of cross-situational word learning
operate on highly simplified representations, side-stepping two important
aspects of the actual learning problem. First, how can word-referent mappings
be learned from raw inputs such as images? Second, how can these learned
mappings generalize to novel instances of a known word? In this paper, we
present a neural network model trained from scratch via self-supervision that
takes in raw images and words as inputs, and show that it can learn
word-referent mappings from fully ambiguous scenes and utterances through
cross-situational learning. In addition, the model generalizes to novel word
instances, locates referents of words in a scene, and shows a preference for
mutual exclusivity.
- Abstract(参考訳): 子どもたちは、騒々しい、あいまいで、自然主義的な入力から、言語と世界の間の対応をどうやって学ぶのか?
複数の状況にまたがる単語とその参照候補を追跡することで、学習者は正しい単語参照マッピングを曖昧化することができる(yu & smith, 2007)。
しかし,従来の言語間単語学習のモデルは高度に単純化された表現で動作し,実際の学習問題の2つの重要な側面をサイドステッピングしている。
まず、画像などの生入力から単語参照マッピングをどのように学習するか。
第二に、これらの学習されたマッピングはどうやって既知の単語の新しいインスタンスに一般化できるのか?
本稿では、生画像と単語を入力として取り込んだ自己スーパービジョンを用いて、ゼロから学習したニューラルネットワークモデルを示し、完全あいまいなシーンから単語参照マッピングを学習し、断続的な学習を通して発話を学習できることを示す。
さらに、モデルは、新しい単語インスタンスに一般化し、シーン内の単語の参照者を特定し、相互排他性の好みを示す。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Learning the meanings of function words from grounded language using a visual question answering model [28.10687343493772]
近年のニューラルネットワークに基づく視覚的質問応答モデルでは,複雑な視覚シーンに関する質問に対する回答の一部として,関数語の使用を学習できることが示されている。
これらのモデルが論理的結合の意味を学べることや、論理的推論に関する事前の知識がないことが分かりました。
本研究は,視覚的に理解された文脈において,機能単語のニュアンス解釈を学習することが可能であることを示す。
論文 参考訳(メタデータ) (2023-08-16T18:53:39Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Visually grounded few-shot word learning in low-resource settings [23.826000011632917]
そこで本研究では,数組の単語イメージ対から新しい単語とその視覚的描写を学習する音声モデルを提案する。
提案手法では,与えられた単語イメージの例対を用いて,音声と画像の大規模なコレクションから教師なしの単語イメージトレーニングペアを抽出する。
この新しいモデルでは、既存の英語ベンチマークの以前のアプローチよりも少ないショットでより良いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-06-20T08:27:42Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Towards a Theoretical Understanding of Word and Relation Representation [8.020742121274418]
ベクトルまたは埋め込みによる単語の表現は、計算的推論を可能にする。
テキストコーパスと知識グラフから学習した単語埋め込みに注目した。
論文 参考訳(メタデータ) (2022-02-01T15:34:58Z) - Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding [59.8167502322261]
本稿では,エンコーダ・デコーダ・トランスフォーマアーキテクチャに基づくワンステージ視覚グラウンドネットワークであるWord2Pixを提案する。
クエリ文からの各単語の埋め込みは、個別に視覚画素に参画することで同様に処理される。
提案されたWord2Pixは、既存のワンステージメソッドよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2021-07-31T10:20:15Z) - Attention-Based Keyword Localisation in Speech using Visual Grounding [32.170748231414365]
我々は,視覚的接地型音声モデルでもキーワードの局所化が可能かどうか検討する。
従来の視覚的基盤モデルよりも注目が大きなパフォーマンス向上をもたらすことを示す。
他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。
論文 参考訳(メタデータ) (2021-06-16T15:29:11Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Using Holographically Compressed Embeddings in Question Answering [0.0]
本研究では,事前学習した埋め込みのホログラフィック圧縮を用いてトークン,そのパート・オブ・音声,名前付きエンティティタイプを表現する。
この実装は、修正された質問応答の繰り返しディープラーニングネットワークにおいて、意味的関係が保存され、高い性能が得られることを示す。
論文 参考訳(メタデータ) (2020-07-14T18:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。