Fugu-MT 論文翻訳(概要): Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales

論文の概要: Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales

arxiv url: http://arxiv.org/abs/2402.15430v2
Date: Thu, 11 Apr 2024 06:40:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 18:26:07.386867
Title: Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales
Title（参考訳）: 大規模空間におけるロバストおよび解釈可能な視覚課題の階層的不変性
Authors: Shuren Qi, Yushu Zhang, Chao Wang, Zhihua Xia, Xiaochun Cao, Jian Weng,
Abstract要約: 本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
参考スコア（独自算出の注目度）: 54.78115855552886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing robust and interpretable vision systems is a crucial step towards trustworthy artificial intelligence. In this regard, a promising paradigm considers embedding task-required invariant structures, e.g., geometric invariance, in the fundamental image representation. However, such invariant representations typically exhibit limited discriminability, limiting their applications in larger-scale trustworthy vision tasks. For this open problem, we conduct a systematic investigation of hierarchical invariance, exploring this topic from theoretical, practical, and application perspectives. At the theoretical level, we show how to construct over-complete invariants with a Convolutional Neural Networks (CNN)-like hierarchical architecture yet in a fully interpretable manner. The general blueprint, specific definitions, invariant properties, and numerical implementations are provided. At the practical level, we discuss how to customize this theoretical framework into a given task. With the over-completeness, discriminative features w.r.t. the task can be adaptively formed in a Neural Architecture Search (NAS)-like manner. We demonstrate the above arguments with accuracy, invariance, and efficiency results on texture, digit, and parasite classification experiments. Furthermore, at the application level, our representations are explored in real-world forensics tasks on adversarial perturbations and Artificial Intelligence Generated Content (AIGC). Such applications reveal that the proposed strategy not only realizes the theoretically promised invariance, but also exhibits competitive discriminability even in the era of deep learning. For robust and interpretable vision tasks at larger scales, hierarchical invariant representation can be considered as an effective alternative to traditional CNN and invariants.
Abstract（参考訳）: 堅牢で解釈可能な視覚システムを開発することは、信頼できる人工知能への重要なステップである。この観点から、有望なパラダイムは、基本的なイメージ表現にタスク要求不変構造(例えば、幾何学的不変性)を埋め込むことを考える。しかし、そのような不変表現は、一般に限定的な識別可能性を示し、より大規模な信頼できる視覚タスクにおけるそれらの応用を制限する。このオープンな問題に対して、我々は階層的不変性の体系的な研究を行い、理論的、実践的、応用的な観点からこのトピックを探求する。理論的レベルでは、畳み込みニューラルネットワーク(CNN)のような階層的アーキテクチャを用いて、完全に解釈可能な方法でオーバーコンプリート不変量を構築する方法を示す。一般的な青写真、特定の定義、不変性、数値的な実装が提供される。実用レベルでは、この理論フレームワークを与えられたタスクにカスタマイズする方法について議論する。オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成することができる。本研究では, テクスチャ, ディジット, 寄生虫の分類実験において, 精度, 不変性, 効率性を示す。さらに、アプリケーションレベルでは、敵の摂動と人工知能生成コンテンツ(AIGC)に関する現実世界の法医学的タスクにおいて、我々の表現を探索する。このような応用により,提案手法は理論的に約束された不変性を実現するだけでなく,深層学習の時代においても競争性のある差別性を示すことが明らかとなった。大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。

関連論文リスト

Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
Why Representation Engineering Works: A Theoretical and Empirical Study in Vision-Language Models [17.987141330832582]
我々は、主固有ベクトルを用いて層間における神経活動の安定性を説明する理論的枠組みを開発する。この研究はRepE(Representation Engineering)を構造化された理論フレームワークに変換し、AIの堅牢性、公正性、透明性を改善するための新たな方向性を開く。
論文参考訳（メタデータ） (2025-03-25T20:32:15Z)
Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。マルチタスク分類を訓練したRNNにおいて,これらの予測を実験的に検証した。私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文参考訳（メタデータ） (2024-07-15T21:32:58Z)
Geometric Understanding of Discriminability and Transferability for Visual Domain Adaptation [27.326817457760725]
教師なしドメイン適応(UDA)のための不変表現学習は、コンピュータビジョンとパターン認識コミュニティにおいて大きな進歩を遂げている。近年,移動可能性と識別可能性との実証的な関係が注目されている。本研究では,幾何学的観点から,伝達可能性と識別可能性の本質を体系的に分析する。
論文参考訳（メタデータ） (2024-06-24T13:31:08Z)
A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。本研究は, 対角移動可能性の展望を考察した。
論文参考訳（メタデータ） (2023-10-26T17:45:26Z)
Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization [5.124256074746721]
深部畳み込みニューラルネットワークの一般化能力は、ネットワークの多層的および多スケール的表現を活用することで向上できると論じる。画像分類器の領域一般化を目的とした,低レベル特徴と高レベル特徴を複数スケールで組み合わせたフレームワークを提案する。我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。
論文参考訳（メタデータ） (2023-08-28T08:54:27Z)
Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文参考訳（メタデータ） (2022-12-13T01:36:56Z)
A Principled Design of Image Representation: Towards Forensic Tasks [75.40968680537544]
本稿では, 理論, 実装, 応用の観点から, 法科学指向の画像表現を別の問題として検討する。理論レベルでは、Dense Invariant Representation (DIR)と呼ばれる、数学的保証を伴う安定した記述を特徴とする、新しい法医学の表現フレームワークを提案する。本稿では, ドメインパターンの検出とマッチング実験について, 最先端の記述子との比較結果を提供する。
論文参考訳（メタデータ） (2022-03-02T07:46:52Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)
Explainability-aided Domain Generalization for Image Classification [0.0]
説明可能性文献から手法やアーキテクチャを適用することで、ドメインの一般化という困難な課題に対して最先端のパフォーマンスを達成できることを示す。そこで我々は,勾配に基づくクラスアクティベーションマップを用いて学習中にネットワークが指導を受ける手法であるDivCAMを含む新しいアルゴリズムを開発し,多様な識別機能に焦点をあてる。これらの手法は、説明可能性に加えて競合性能を提供するため、深層ニューラルネットワークアーキテクチャのロバスト性を改善するツールとして使用できると論じる。
論文参考訳（メタデータ） (2021-04-05T02:27:01Z)
Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文参考訳（メタデータ） (2020-07-14T22:04:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。