論文の概要: Unlocking Compositional Generalization in Continual Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2605.11710v2
- Date: Mon, 18 May 2026 14:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.697242
- Title: Unlocking Compositional Generalization in Continual Few-Shot Learning
- Title(参考訳): 連続的なFew-Shot学習における構成一般化の解法
- Authors: Phu-Quy Nguyen-Lam, Phu-Hoa Pham, Dao Sy Duy Minh, Chi-Nguyen Tran, Huynh Trung Kiet, Long Tran-Thanh,
- Abstract要約: 我々は、合成推論から表現学習を厳密に分離する新しいパラダイムを開拓した。
トレーニング中、スロット表現は完全に全体的クラスアイデンティティに最適化される。
我々はこのパラダイムが二重構造的利点をもたらすことを実証し、凍結したバックボーンは自然に表現のドリフトを防ぎ、一方、我々の軽量で全体最適化は新規概念伝達のための特徴量を保存する。
- 参考スコア(独自算出の注目度): 6.276425555068115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric representations promise a key property for few-shot learning: Rather than treating a scene as a single unit, a model can decompose it into individual object-level parts that can be matched and compared across different concepts. In practice, this potential is rarely realized. Continual learners either collapse scenes into global embeddings, or train with part-level matching objectives that tie representations too closely to seen patterns, leaving them unable to generalize to truly novel concepts. In this paper, we identify this fundamental structural conflict and pioneer a new paradigm that strictly decouples representation learning from compositional inference. Leveraging the inherent patch-level semantic geometry of self-supervised Vision Transformers (ViTs), our framework employs a dual-phase strategy. During training, slot representations are optimized entirely toward holistic class identity, preserving highly generalizable, object-level geometries. At inference, preserved slots are dynamically composed to match novel scenes. We demonstrate that this paradigm offers dual structural benefits: The frozen backbone naturally prevents representation drift, while our lightweight, holistic optimization preserves the features' capacity for novel-concept transfer. Extensive experiments validate this approach, achieving state-of-the-art unseen-concept generalization and minimal forgetting across standard continual learning benchmarks.
- Abstract(参考訳): シーンを単一の単位として扱うのではなく、モデルはそれを個々のオブジェクトレベルの部分に分解し、異なる概念にマッチし比較することができる。
実際には、このポテンシャルはめったに実現されない。
連続的な学習者は、シーンをグローバルな埋め込みに分解するか、あるいは、表現を目に見えないパターンに近づきすぎ、真に新しい概念に一般化できない部分レベルのマッチング目標で訓練する。
本稿では,この基本的な構造的対立を識別し,構成的推論から表現的学習を厳密に分離する新たなパラダイムを開拓する。
自己監督型視覚変換器(ViT)のパッチレベルのセマンティックジオメトリを生かして、我々のフレームワークは二重位相戦略を採用している。
訓練中、スロット表現は完全に全体論的クラスアイデンティティに最適化され、高度に一般化可能なオブジェクトレベルのジオメトリを保存する。
推測では、保存されたスロットは、新しいシーンにマッチするように動的に構成される。
凍結したバックボーンは自然に表現のドリフトを防ぎ、我々の軽量で総合的な最適化は新規概念伝達の能力を維持する。
大規模な実験はこのアプローチを検証し、最先端の未確認概念の一般化と標準連続学習ベンチマークでの最小限の忘れを達成した。
関連論文リスト
- Incomplete Multi-View Multi-Label Classification via Shared Codebook and Fused-Teacher Self-Distillation [39.27376279295644]
一貫性のある表現学習のためのより構造化されたメカニズムを導入する。
マルチビュー共有コードブックとクロスビュー再構成を用いて、離散的な一貫した表現を学習する。
さらに,融合型自己蒸留フレームワークについても紹介する。
論文 参考訳(メタデータ) (2026-04-05T16:22:38Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Patch-Level Kernel Alignment for Dense Self-Supervised Learning [7.5866326278176075]
Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-09-06T05:42:32Z) - The Coverage Principle: A Framework for Understanding Compositional Generalization [31.762330857169914]
合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。
我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文 参考訳(メタデータ) (2025-05-26T17:55:15Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Mnemonics Training: Multi-Class Incremental Learning without Forgetting [131.1065577648532]
マルチクラスインクリメンタルラーニング(MCIL)は、従来の概念に基づいてトレーニングされたモデルを漸進的に更新することで、新しい概念を学習することを目的としている。
本稿では,前例をパラメータ化し,エンドツーエンドで最適化できるようにする,新しい,かつ自動的なフレームワークを提案する。
CIFAR-100, ImageNet-Subset, ImageNet の3つのMCILベンチマークで大規模な実験を行い, メニーモニック・エスペクタの使用が最先端をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2020-02-24T12:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。