論文の概要: Convolutional Neural Networks Trained to Identify Words Provide a Good
Account of Visual Form Priming Effects
- arxiv url: http://arxiv.org/abs/2302.03992v1
- Date: Wed, 8 Feb 2023 11:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:49:13.275395
- Title: Convolutional Neural Networks Trained to Identify Words Provide a Good
Account of Visual Form Priming Effects
- Title(参考訳): 単語を識別するために訓練された畳み込みニューラルネットワークは、視覚的形態のプライミング効果をうまく評価する
- Authors: Dong Yin and Valerio Biscione and Jeffrey Bowers
- Abstract要約: 深層畳み込みネットワークは, 符号化方式や単語認識モデルよりも, あるいはそれ以上に機能することがわかった。
発見は、畳み込みネットワークが視覚的単語識別の重要な側面を捉えていることを示唆する最近の研究に重きを置いている。
- 参考スコア(独自算出の注目度): 14.202583960390394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A wide variety of orthographic coding schemes and models of visual word
identification have been developed to account for masked priming data that
provide a measure of orthographic similarity between letter strings. These
models tend to include hand-coded orthographic representations with single unit
coding for specific forms of knowledge (e.g., units coding for a letter in a
given position or a letter sequence). Here we assess how well a range of these
coding schemes and models account for the pattern of form priming effects taken
from the Form Priming Project and compare these findings to results observed in
with 11 standard deep neural network models (DNNs) developed in computer
science. We find that deep convolutional networks perform as well or better
than the coding schemes and word recognition models, whereas transformer
networks did less well. The success of convolutional networks is remarkable as
their architectures were not developed to support word recognition (they were
designed to perform well on object recognition) and they classify pixel images
of words (rather artificial encodings of letter strings). The findings add to
the recent work of (Hannagan et al., 2021) suggesting that convolutional
networks may capture key aspects of visual word identification.
- Abstract(参考訳): 文字文字列間の正書法類似度を測るマスク付きプライミングデータを考慮するために,多様な正書法符号化方式と視覚単語識別モデルが開発されている。
これらのモデルは、特定の知識形式(例えば、ある位置や文字列の文字を符号化する単位など)を符号化する単一の単位を持つ手書きの正書法表現を含む傾向がある。
本稿では,form primingプロジェクトから得られたフォルムプライミング効果のパターンを,これらの符号化方式やモデルの範囲がどの程度適切に評価し,コンピュータサイエンスで開発された11の標準ディープニューラルネットワークモデル (dnn) と比較する。
深層畳み込みネットワークは符号化方式や単語認識モデルよりも性能が良いが,トランスフォーマーネットワークは性能が低かった。
畳み込みネットワークの成功は、単語認識をサポートするためのアーキテクチャが開発されず(それらはオブジェクト認識でよく機能するように設計された)、単語のピクセル画像(文字文字列の人工符号化)を分類するという点で顕著である。
この発見は、近年の(Hannagan et al., 2021)の成果に加え、畳み込みネットワークが視覚的単語識別の重要な側面を捉えていることを示唆している。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Cracking the neural code for word recognition in convolutional neural networks [1.0991358618541507]
学習スクリプトにおける単語認識のために,単位の小さなサブセットがどのように特殊化されるかを示す。
これらのユニットは、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示す。
提案したニューラルネットワークは,文字の同一性や位置に関する情報を抽出し,不変な単語認識を可能にするメカニズム的な知見を提供する。
論文 参考訳(メタデータ) (2024-03-10T10:12:32Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Transforming Visual Scene Graphs to Image Captions [69.13204024990672]
我々は、Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
TSGでは、シーングラフの埋め込みのためのグラフニューラルネットワーク(GNN)の設計にマルチヘッドアテンション(MHA)を適用している。
TSGでは、各専門家はMHAに基づいてグラフ埋め込みを識別し、異なる種類の単語を生成する。
論文 参考訳(メタデータ) (2023-05-03T15:18:37Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Deep learning based dictionary learning and tomographic image
reconstruction [0.0]
本研究は, 疎信号処理の原理と深層学習の考え方を組み合わせた低用量断層撮影における画像再構成手法を提案する。
まず、統計的観点からの辞書によるスパース信号表現と辞書学習を、生成モデルから真信号の実証的分布に現れる分布を整列する過程として解釈する。
その結果、学習辞書を用いたスパース符号化は、デコーダが線形関数であり、エンコーダがスパース符号化アルゴリズムである特定の変分オートエンコーダに類似していることが分かる。
論文 参考訳(メタデータ) (2021-08-26T12:10:17Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Characterization and recognition of handwritten digits using Julia [0.0]
我々は,MNISTデータセットの桁を認識可能なハイブリッドニューラルネットワークモデルを実装した。
提案したニューラルモデルネットワークは、画像から特徴を抽出し、層内の特徴を層ごとに認識することができる。
また、MNISTデータセットの自動エンコーディングシステムと変分自動エンコーディングシステムを認識することもできる。
論文 参考訳(メタデータ) (2021-02-24T00:30:41Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。