論文の概要: Towards Visual Syntactical Understanding
- arxiv url: http://arxiv.org/abs/2401.17497v1
- Date: Tue, 30 Jan 2024 23:05:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:01:35.504531
- Title: Towards Visual Syntactical Understanding
- Title(参考訳): 視覚構文理解に向けて
- Authors: Sayeed Shafayet Chowdhury, Soumyadeep Chandra, and Kaushik Roy
- Abstract要約: 本稿では,ディープニューラルネットワーク(DNN)が視覚的構文理解を備えているかを検討する。
画像中の「単語」を検出し, (ii) 検出された単語をオートエンコーダを用いて順次マスクし, 再構成し, (iii) オリジナルの部分と再構成された部分を各場所で比較し, 統語的正当性を決定する。
CelebAとAFHQのデータセットから,それぞれ92.10%,90.89%の分類精度を得た。
- 参考スコア(独自算出の注目度): 8.530698703124159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Syntax is usually studied in the realm of linguistics and refers to the
arrangement of words in a sentence. Similarly, an image can be considered as a
visual 'sentence', with the semantic parts of the image acting as 'words'.
While visual syntactic understanding occurs naturally to humans, it is
interesting to explore whether deep neural networks (DNNs) are equipped with
such reasoning. To that end, we alter the syntax of natural images (e.g.
swapping the eye and nose of a face), referred to as 'incorrect' images, to
investigate the sensitivity of DNNs to such syntactic anomaly. Through our
experiments, we discover an intriguing property of DNNs where we observe that
state-of-the-art convolutional neural networks, as well as vision transformers,
fail to discriminate between syntactically correct and incorrect images when
trained on only correct ones. To counter this issue and enable visual syntactic
understanding with DNNs, we propose a three-stage framework- (i) the 'words'
(or the sub-features) in the image are detected, (ii) the detected words are
sequentially masked and reconstructed using an autoencoder, (iii) the original
and reconstructed parts are compared at each location to determine syntactic
correctness. The reconstruction module is trained with BERT-like masked
autoencoding for images, with the motivation to leverage language model
inspired training to better capture the syntax. Note, our proposed approach is
unsupervised in the sense that the incorrect images are only used during
testing and the correct versus incorrect labels are never used for training. We
perform experiments on CelebA, and AFHQ datasets and obtain classification
accuracy of 92.10%, and 90.89%, respectively. Notably, the approach generalizes
well to ImageNet samples which share common classes with CelebA and AFHQ
without explicitly training on them.
- Abstract(参考訳): 構文は通常、言語学の分野で研究され、文中の単語の配列を参照する。
同様に、画像は視覚的な「感覚」と見なすことができ、画像の意味部分は「単語」として振る舞う。
視覚構文理解は人間に自然に起こるが、ディープニューラルネットワーク(dnn)がそのような推論を備えているかどうかを調べるのは興味深い。
そこで我々は, 自然な画像(例えば, 顔の目と鼻を交換するなど)の構文を「正しくない」画像として変更し, このような構文異常に対するDNNの感度について検討する。
そこで本研究では,視覚トランスフォーマーと同様に最先端の畳み込みニューラルネットワークが,正しい画像のみを訓練した場合に構文的に正しい画像と不正確な画像を区別できないことを観察する。
この問題に対処し,dnnで視覚的構文理解を可能にするため,我々は3段階のフレームワークを提案する。
(i)画像中の「単語」(または、サブフィーチャー)を検出する。
(ii)自動エンコーダを用いて、検出された単語を順次マスクして再構成する。
(iii)各箇所でオリジナル部と再構築部を比較し、統語的正しさを判定する。
リコンストラクションモジュールは、bertのようなマスクによるイメージの自動エンコーディングでトレーニングされ、言語モデルにインスパイアされたトレーニングを活用して、構文をよりよくキャプチャする。
なお,提案手法は,誤画像はテスト時にのみ使用され,誤ラベルと誤ラベルはトレーニングに使用されないという意味で,教師なしである。
celebaとafhqデータセットについて実験を行い,それぞれ92.10%,90.89%の分類精度を得た。
特にこのアプローチは、明示的にトレーニングすることなくcelebaとafhqと共通のクラスを共有するimagenetサンプルにうまく一般化している。
関連論文リスト
- Towards Image Semantics and Syntax Sequence Learning [8.033697392628424]
画像意味論」と「画像構文」からなる「画像文法」の概念を導入する。
視覚オブジェクト/シーンのクラスに対して画像文法を学習するための弱教師付き2段階アプローチを提案する。
私たちのフレームワークは、パッチセマンティクスを推論し、欠陥のある構文を検出するように訓練されています。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - Controlled Caption Generation for Images Through Adversarial Attacks [85.66266989600572]
画像特徴抽出には畳み込みニューラルネットワーク(CNN)、キャプション生成にはリカレントニューラルネットワーク(RNN)が使用される。
特に、その後の再帰的ネットワークに供給される視覚エンコーダの隠蔽層に対する攻撃について検討する。
本稿では、CNNの内部表現を模倣したニューラルネットワークキャプションの逆例を作成するためのGANベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-07T07:22:41Z) - SynthMorph: learning contrast-invariant registration without acquired
images [8.0963891430422]
画像データを取得せずに画像登録を学習するための戦略を導入する。
この戦略は任意のMRIコントラストの堅牢かつ正確な登録を可能にする。
論文 参考訳(メタデータ) (2020-04-21T20:29:39Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。