論文の概要: Hierarchical Invariance for Robust and Interpretable Vision Tasks at
Larger Scales
- arxiv url: http://arxiv.org/abs/2402.15430v1
- Date: Fri, 23 Feb 2024 16:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 13:50:20.323900
- Title: Hierarchical Invariance for Robust and Interpretable Vision Tasks at
Larger Scales
- Title(参考訳): 大きなスケールでのロバストかつ解釈可能な視覚タスクのための階層的不変性
- Authors: Shuren Qi, Yushu Zhang, Chao Wang, Zhihua Xia, Jian Weng, Xiaochun Cao
- Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
- 参考スコア(独自算出の注目度): 58.046982315688275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing robust and interpretable vision systems is a crucial step towards
trustworthy artificial intelligence. In this regard, a promising paradigm
considers embedding task-required invariant structures, e.g., geometric
invariance, in the fundamental image representation. However, such invariant
representations typically exhibit limited discriminability, limiting their
applications in larger-scale trustworthy vision tasks. For this open problem,
we conduct a systematic investigation of hierarchical invariance, exploring
this topic from theoretical, practical, and application perspectives. At the
theoretical level, we show how to construct over-complete invariants with a
Convolutional Neural Networks (CNN)-like hierarchical architecture yet in a
fully interpretable manner. The general blueprint, specific definitions,
invariant properties, and numerical implementations are provided. At the
practical level, we discuss how to customize this theoretical framework into a
given task. With the over-completeness, discriminative features w.r.t. the task
can be adaptively formed in a Neural Architecture Search (NAS)-like manner. We
demonstrate the above arguments with accuracy, invariance, and efficiency
results on texture, digit, and parasite classification experiments.
Furthermore, at the application level, our representations are explored in
real-world forensics tasks on adversarial perturbations and Artificial
Intelligence Generated Content (AIGC). Such applications reveal that the
proposed strategy not only realizes the theoretically promised invariance, but
also exhibits competitive discriminability even in the era of deep learning.
For robust and interpretable vision tasks at larger scales, hierarchical
invariant representation can be considered as an effective alternative to
traditional CNN and invariants.
- Abstract(参考訳): 堅牢で解釈可能な視覚システムを開発することは、信頼できる人工知能への重要なステップである。
この点に関して、有望なパラダイムは、基本画像表現におけるタスク要求不変構造(例えば幾何学的不変量)の埋め込みを考える。
しかし、そのような不変表現は一般に限定的な識別可能性を示し、より大規模な信頼できる視覚タスクにおける応用を制限する。
このオープンな問題に対して,階層的不変性の体系的調査を行い,理論的,実用的,応用的観点から考察する。
理論的なレベルでは、畳み込みニューラルネットワーク(cnn)のような階層構造を持ちながら完全に解釈可能な方法で超完全不変量を構築する方法を示す。
一般的な青写真、特定の定義、不変性、数値的な実装を提供する。
実用レベルでは、この理論フレームワークを与えられたタスクにカスタマイズする方法について議論する。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成することができる。
本研究では, テクスチャ, ディジット, 寄生虫の分類実験において, 精度, 不変性, 効率性を示す。
さらに、アプリケーションレベルでは、我々の表現は、敵対的摂動とaigc(artificial intelligence generated content)に関する現実世界の鑑識タスクで探求される。
このような応用により,提案手法は理論的に約束された不変性を実現するだけでなく,深層学習の時代においても競争性のある差別性を示すことが明らかとなった。
大きなスケールでのロバストで解釈可能なビジョンタスクでは、階層的不変表現は従来のcnnや不変量に代わる有効な選択肢と見なすことができる。
関連論文リスト
- Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスク分類を訓練したRNNにおいて,これらの予測を実験的に検証した。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文 参考訳(メタデータ) (2024-07-15T21:32:58Z) - Geometric Understanding of Discriminability and Transferability for Visual Domain Adaptation [27.326817457760725]
教師なしドメイン適応(UDA)のための不変表現学習は、コンピュータビジョンとパターン認識コミュニティにおいて大きな進歩を遂げている。
近年,移動可能性と識別可能性との実証的な関係が注目されている。
本研究では,幾何学的観点から,伝達可能性と識別可能性の本質を体系的に分析する。
論文 参考訳(メタデータ) (2024-06-24T13:31:08Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。
画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。
我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文 参考訳(メタデータ) (2023-08-28T08:54:27Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - A Principled Design of Image Representation: Towards Forensic Tasks [75.40968680537544]
本稿では, 理論, 実装, 応用の観点から, 法科学指向の画像表現を別の問題として検討する。
理論レベルでは、Dense Invariant Representation (DIR)と呼ばれる、数学的保証を伴う安定した記述を特徴とする、新しい法医学の表現フレームワークを提案する。
本稿では, ドメインパターンの検出とマッチング実験について, 最先端の記述子との比較結果を提供する。
論文 参考訳(メタデータ) (2022-03-02T07:46:52Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Explainability-aided Domain Generalization for Image Classification [0.0]
説明可能性文献から手法やアーキテクチャを適用することで、ドメインの一般化という困難な課題に対して最先端のパフォーマンスを達成できることを示す。
そこで我々は,勾配に基づくクラスアクティベーションマップを用いて学習中にネットワークが指導を受ける手法であるDivCAMを含む新しいアルゴリズムを開発し,多様な識別機能に焦点をあてる。
これらの手法は、説明可能性に加えて競合性能を提供するため、深層ニューラルネットワークアーキテクチャのロバスト性を改善するツールとして使用できると論じる。
論文 参考訳(メタデータ) (2021-04-05T02:27:01Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。