論文の概要: Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification
- arxiv url: http://arxiv.org/abs/2410.04492v1
- Date: Wed, 16 Oct 2024 12:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 07:06:24.887146
- Title: Interpret Your Decision: Logical Reasoning Regularization for Generalization in Visual Classification
- Title(参考訳): 決定を解釈する:視覚分類における一般化のための論理的推論規則化
- Authors: Zhaorui Tan, Xi Yang, Qiufeng Wang, Anh Nguyen, Kaizhu Huang,
- Abstract要約: L-Regと呼ばれる論理正規化は、画像分類に論理解析の枠組みを橋渡しする。
具体的には、L-Regがもたらす解釈可能性を明らかにし、そのモデルが人物の顔などの有能な特徴を抽出して分類することを可能にする。
- 参考スコア(独自算出の注目度): 23.100419416717397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision models excel in image classification but struggle to generalize to unseen data, such as classifying images from unseen domains or discovering novel categories. In this paper, we explore the relationship between logical reasoning and deep learning generalization in visual classification. A logical regularization termed L-Reg is derived which bridges a logical analysis framework to image classification. Our work reveals that L-Reg reduces the complexity of the model in terms of the feature distribution and classifier weights. Specifically, we unveil the interpretability brought by L-Reg, as it enables the model to extract the salient features, such as faces to persons, for classification. Theoretical analysis and experiments demonstrate that L-Reg enhances generalization across various scenarios, including multi-domain generalization and generalized category discovery. In complex real-world scenarios where images span unknown classes and unseen domains, L-Reg consistently improves generalization, highlighting its practical efficacy.
- Abstract(参考訳): 視覚モデルは画像分類に優れているが、見えない領域からのイメージの分類や新しいカテゴリの発見など、見えないデータへの一般化に苦慮している。
本稿では,視覚分類における論理的推論とディープラーニングの一般化の関係について検討する。
L-Regと呼ばれる論理正規化は、画像分類に論理解析の枠組みを橋渡しする。
我々の研究は、L-Regが特徴分布と分類器重みの点でモデルの複雑さを減少させることを示した。
具体的には、L-Regがもたらす解釈可能性を明らかにし、そのモデルが人物の顔などの有能な特徴を抽出して分類することを可能にする。
理論的解析と実験により、L-Regは多領域の一般化や一般化されたカテゴリ発見など、様々なシナリオにおける一般化を促進することが示されている。
画像が未知のクラスや見えないドメインにまたがる複雑な実世界のシナリオでは、L-Regは一貫して一般化を改善し、実用性を強調している。
関連論文リスト
- When and How Does CLIP Enable Domain and Compositional Generalization? [26.156636891713745]
ドメインの多様性は、ドメインと構成の一般化の両方に不可欠であることを示す。
一般化に成功するためには、既に中間層や共有回路で共有表現を学習する必要がある。
論文 参考訳(メタデータ) (2025-02-13T17:21:37Z) - Boosting of Classification Models with Human-in-the-Loop Computational Visual Knowledge Discovery [2.9465623430708905]
本稿では, クラス重複領域のすべてのケースに対して, 誤分類事例のみに焦点をあてることから, クラス重複領域への移動促進手法を提案する。
分割と分類のプロセスは、ケースを単純で複雑なものに分割し、計算分析とデータの視覚化を通じて個別に分類する。
純粋なクラス領域と重複クラス領域を見つけた後、純粋な領域における単純なケースを分類し、命題論理や一階論理などの決定規則のような解釈可能なサブモデルを生成する。
論文 参考訳(メタデータ) (2025-02-10T21:09:19Z) - SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Position Paper: Generalized grammar rules and structure-based
generalization beyond classical equivariance for lexical tasks and
transduction [7.523978255716284]
一般化文法規則(GGR)の概念を用いて構成的に一般化可能なモデル構築のための汎用フレームワークを提案する。
私たちのフレームワークは、多くの既存の作品を特別なケースとして含めるのに十分な一般性を持っています。
我々は、GGRの実装方法に関するアイデアを提示し、その過程で強化学習やその他の研究分野との関連性を引き出す。
論文 参考訳(メタデータ) (2024-02-02T18:44:37Z) - Class-wise Generalization Error: an Information-Theoretic Analysis [22.877440350595222]
本稿では,各クラスの一般化性能を定量化するクラス一般化誤差について検討する。
我々は、異なるニューラルネットワークにおける提案した境界を実験的に検証し、それらが複雑なクラス一般化エラーの振る舞いを正確に捉えていることを示す。
論文 参考訳(メタデータ) (2024-01-05T17:05:14Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Multi-class Generative Adversarial Nets for Semi-supervised Image
Classification [0.17404865362620794]
類似した画像がGANを一般化させ、画像の分類が貧弱になることを示す。
半教師付き学習フレームワークにおいて、画像の類似クラスにおけるマルチクラス分類を改善するため、GANの従来の訓練の修正を提案する。
論文 参考訳(メタデータ) (2021-02-13T15:26:17Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。