論文の概要: Disentanglement and Compositionality of Letter Identity and Letter Position in Variational Auto-Encoder Vision Models
- arxiv url: http://arxiv.org/abs/2412.10446v1
- Date: Wed, 11 Dec 2024 18:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:03.198551
- Title: Disentanglement and Compositionality of Letter Identity and Letter Position in Variational Auto-Encoder Vision Models
- Title(参考訳): 変分自己エンコーダ視覚モデルにおける文字アイデンティティと文字位置のアンタングル化と構成性
- Authors: Bruno Bianchi, Aakash Agrawal, Stanislas Dehaene, Emmanuel Chemla, Yair Lakretz,
- Abstract要約: 視覚入力における特徴のゆがみに関する最先端のニューラルネットワークが、文字の位置と文字の識別を、文字のイメージに基づいて訓練した場合に、切り離すことができるかどうかを検証した。
画像中の単語の水平および垂直の網膜位置などの表面的特徴を効果的に解消するが,文字の位置や文字の同一性は劇的に低下し,単語長の概念が欠如していることが判明した。
- 参考スコア(独自算出の注目度): 7.079016293242027
- License:
- Abstract: Human readers can accurately count how many letters are in a word (e.g., 7 in ``buffalo''), remove a letter from a given position (e.g., ``bufflo'') or add a new one. The human brain of readers must have therefore learned to disentangle information related to the position of a letter and its identity. Such disentanglement is necessary for the compositional, unbounded, ability of humans to create and parse new strings, with any combination of letters appearing in any positions. Do modern deep neural models also possess this crucial compositional ability? Here, we tested whether neural models that achieve state-of-the-art on disentanglement of features in visual input can also disentangle letter position and letter identity when trained on images of written words. Specifically, we trained beta variational autoencoder ($\beta$-VAE) to reconstruct images of letter strings and evaluated their disentanglement performance using CompOrth - a new benchmark that we created for studying compositional learning and zero-shot generalization in visual models for orthography. The benchmark suggests a set of tests, of increasing complexity, to evaluate the degree of disentanglement between orthographic features of written words in deep neural models. Using CompOrth, we conducted a set of experiments to analyze the generalization ability of these models, in particular, to unseen word length and to unseen combinations of letter identities and letter positions. We found that while models effectively disentangle surface features, such as horizontal and vertical `retinal' locations of words within an image, they dramatically fail to disentangle letter position and letter identity and lack any notion of word length. Together, this study demonstrates the shortcomings of state-of-the-art $\beta$-VAE models compared to humans and proposes a new challenge and a corresponding benchmark to evaluate neural models.
- Abstract(参考訳): 人間の読み手は、単語中の文字数を正確に数えたり(例 g , 7 in ``buffalo'')、特定の位置(例 g , ``bufflo'')から文字を取り除いたり、新しい文字を追加したりすることができる。
したがって、読者の人間の脳は、手紙の位置とそのアイデンティティに関連する情報を解き放つことを学ばなければならない。
このような絡み合いは、人間が新しい文字列を作成して解析する能力に必要であり、任意の位置に文字の組み合わせが現れる。
現代のディープニューラルモデルも、この重要な構成能力を持っているだろうか?
ここでは,視覚入力における特徴のゆがみに対する最先端のニューラルネットワークが,文字の位置と文字の同一性も引き離すことができるかどうかを検証した。
具体的には,文字文字列の画像を再構成するために,ベータ変分オートエンコーダ($\beta$-VAE)を訓練し,コンプリート(CompOrth)を用いてその歪み性能を評価した。
このベンチマークは、深層神経モデルで書かれた単語の正書法的特徴間の絡み合いの程度を評価するために、複雑さを増大させる一連のテストを提案する。
CompOrthを用いて,これらのモデルの一般化能力,特に単語長の不明化,文字の同一性と文字の位置の不明化について,一連の実験を行った。
画像中の単語の水平方向や垂直方向の「レチナル」位置といった表面的特徴を効果的に解消するが,文字の位置や文字の同一性は劇的に低下し,単語長の概念が欠如していることが判明した。
本研究では,人間と比較して最先端の$\beta$-VAEモデルの欠点を実証し,ニューラルモデルを評価するための新しい課題とそれに対応するベンチマークを提案する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Cracking the neural code for word recognition in convolutional neural networks [1.0991358618541507]
学習スクリプトにおける単語認識のために,単位の小さなサブセットがどのように特殊化されるかを示す。
これらのユニットは、単語の左または右の空白空間からの距離や特定の文字の識別に敏感であることを示す。
提案したニューラルネットワークは,文字の同一性や位置に関する情報を抽出し,不変な単語認識を可能にするメカニズム的な知見を提供する。
論文 参考訳(メタデータ) (2024-03-10T10:12:32Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Composition and Deformance: Measuring Imageability with a Text-to-Image
Model [8.008504325316327]
生成した画像を用いて、単一英語の単語と接続されたテキストの可視性を測定する手法を提案する。
提案手法と個人単語の人的判断との間には高い相関関係が認められた。
本研究は,テキスト・ツー・イメージ・モデルにおけるモデルトレーニングの可能性と,構成性の研究に与える影響について論じる。
論文 参考訳(メタデータ) (2023-06-05T18:22:23Z) - Convolutional Neural Networks Trained to Identify Words Provide a Good
Account of Visual Form Priming Effects [14.202583960390394]
深層畳み込みネットワークは, 符号化方式や単語認識モデルよりも, あるいはそれ以上に機能することがわかった。
発見は、畳み込みネットワークが視覚的単語識別の重要な側面を捉えていることを示唆する最近の研究に重きを置いている。
論文 参考訳(メタデータ) (2023-02-08T11:01:19Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - Adaptive Text Recognition through Visual Matching [86.40870804449737]
言語における文字の反復性を利用した新しいモデルを提案する。
これにより、テキスト認識を形状整合問題に変換する。
従来のアーキテクチャでは、高価な再トレーニングなしには解決できない課題に対処できることが示されています。
論文 参考訳(メタデータ) (2020-09-14T17:48:53Z) - Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models [7.294729862905325]
我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
論文 参考訳(メタデータ) (2020-06-30T19:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。