論文の概要: Leveraging Systematic Knowledge of 2D Transformations
- arxiv url: http://arxiv.org/abs/2206.00893v2
- Date: Tue, 23 Apr 2024 03:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 20:31:21.476188
- Title: Leveraging Systematic Knowledge of 2D Transformations
- Title(参考訳): 2次元変換の体系的知識の活用
- Authors: Jiachen Kang, Wenjing Jia, Xiangjian He,
- Abstract要約: 人間は、たとえ画像のシーンが珍しいとしても、画像を解釈する素晴らしい能力を持っている。
本研究は,1)2次元変換の体系的知識の獲得,2)画像分類タスクにおける学習知識を活用可能なアーキテクチャコンポーネントに焦点を当てる。
- 参考スコア(独自算出の注目度): 6.668181653599057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing deep learning models suffer from out-of-distribution (o.o.d.) performance drop in computer vision tasks. In comparison, humans have a remarkable ability to interpret images, even if the scenes in the images are rare, thanks to the systematicity of acquired knowledge. This work focuses on 1) the acquisition of systematic knowledge of 2D transformations, and 2) architectural components that can leverage the learned knowledge in image classification tasks in an o.o.d. setting. With a new training methodology based on synthetic datasets that are constructed under the causal framework, the deep neural networks acquire knowledge from semantically different domains (e.g. even from noise), and exhibit certain level of systematicity in parameter estimation experiments. Based on this, a novel architecture is devised consisting of a classifier, an estimator and an identifier (abbreviated as "CED"). By emulating the "hypothesis-verification" process in human visual perception, CED improves the classification accuracy significantly on test sets under covariate shift.
- Abstract(参考訳): 既存のディープラーニングモデルは、コンピュータビジョンタスクのパフォーマンス低下(o.o.d.)に悩まされている。
比較すると、画像のシーンは、取得した知識の体系性のおかげで、たとえ画像のシーンが希少であっても、人間は画像の解釈に顕著な能力を持っている。
この作品は焦点をあてる
1)2次元変換の体系的知識の取得,及び
2) 画像分類タスクにおける学習知識をo.o.d.設定で活用できるアーキテクチャコンポーネント。
因果的枠組みに基づいて構築された合成データセットに基づく新たなトレーニング手法により、ディープニューラルネットワークは、意味的に異なるドメイン(例えばノイズ)から知識を取得し、パラメータ推定実験において一定の体系性を示す。
これに基づいて、分類器、推定器、識別子(略して「CED」)からなる新しいアーキテクチャが考案される。
ヒトの視覚知覚における「仮説検証」過程をエミュレートすることにより、CEDは共変量シフトによるテストセットの分類精度を大幅に向上させる。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Dual Cognitive Architecture: Incorporating Biases and Multi-Memory
Systems for Lifelong Learning [21.163070161951868]
本稿では,複数のサブシステム,暗黙的かつ明示的な知識表現,帰納的バイアス,マルチメモリシステムを含むDual Cognitive Architecture(DUCA)を紹介する。
DUCAはさまざまな設定やデータセットにまたがって改善を示し、余分な情報を必要とせずにタスクの遅延バイアスを低減している。
分散シフトが困難な場合の生涯学習手法の汎用性をさらに検証するため,ドメイン・インクリメンタル・データセットDN4ILを導入する。
論文 参考訳(メタデータ) (2023-10-17T15:24:02Z) - Defect Classification in Additive Manufacturing Using CNN-Based Vision
Processing [76.72662577101988]
本稿では、まず、畳み込みニューラルネットワーク(CNN)を用いて、画像データセットの欠陥をAMから第2に正確に分類し、発達した分類モデルにアクティブラーニング技術を適用する。
これにより、トレーニングデータやトレーニングデータの生成に必要なデータのサイズを削減できる、ヒューマン・イン・ザ・ループ機構の構築が可能になる。
論文 参考訳(メタデータ) (2023-07-14T14:36:58Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - Top-down inference in an early visual cortex inspired hierarchical
Variational Autoencoder [0.0]
我々は変分オートエンコーダの進歩を利用して、自然画像に基づいて訓練された疎い符号化階層型VAEを用いて、初期視覚野を調査する。
一次および二次視覚皮質に見られるものと類似した表現は、軽度の誘導バイアスの下で自然に現れる。
生成モデルを用いた2つの計算のシグネチャに対して,ニューロサイエンスに着想を得た認識モデルの選択が重要であることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:21:58Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Lifelong 3D Object Recognition and Grasp Synthesis Using Dual Memory
Recurrent Self-Organization Networks [0.0]
人間は、これまで得られた知識を忘れずに、生涯にわたって新しい物体を認識し、操作することを学ぶ。
ほとんどの従来のディープニューラルネットワークでは、破滅的な忘れの問題のため、これは不可能である。
本稿では,物体認識と把握を同時に行うために,デュアルメモリリカレントニューラルネットワークとオートエンコーダを組み合わせたハイブリッドモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-23T11:14:13Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Deep Adaptive Semantic Logic (DASL): Compiling Declarative Knowledge
into Deep Neural Networks [11.622060073764944]
本稿では,深層ニューラルネットワークの自動生成のための新しいフレームワークであるDeep Adaptive Semantic Logic (DASL)を紹介する。
DASLは、データからの学習を改善するために、ユーザが提供する形式的な知識を取り入れている。
我々は,視覚的関係検出タスク上でDASLを評価し,コモンセンス知識の追加によってデータ不足時の性能が10.7%向上することが実証された。
論文 参考訳(メタデータ) (2020-03-16T17:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。