論文の概要: Face, Whole-Person, and Object Classification in a Unified Space Via The Interleaved Multi-Domain Identity Curriculum
- arxiv url: http://arxiv.org/abs/2511.19846v1
- Date: Tue, 25 Nov 2025 02:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.236844
- Title: Face, Whole-Person, and Object Classification in a Unified Space Via The Interleaved Multi-Domain Identity Curriculum
- Title(参考訳): インターリーブ型マルチドメインアイデンティティ・カリキュラムにおける顔,全パーソン,オブジェクトの分類
- Authors: Thomas M Metz, Matthew Q Hill, Alice J O'Toole,
- Abstract要約: ビジョンファウンデーションモデルは、ゼロショットモードで一般化されたオブジェクト分類を実行し、微調整されたときに顔と人物の認識を行うことができる。
我々は,4つのタスク(物体認識,高品質・低品質画像からの顔認識,全身画像からの人物認識)を1つの埋め込み空間で行うモデルを作成する。
IIC(Interleaved Multi-Domain Identity Curriculum)の2つの変種を紹介する。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision foundation models can perform generalized object classification in zero-shot mode, and face/person recognition when they are fine-tuned. However, fine-tuned models suffer from catastrophic forgetting. We create models that perform four tasks (object recognition, face recognition from high- and low-quality images, and person recognition from whole-body images) in a single embedding space -- without incurring substantial catastrophic forgetting. To accomplish this, we introduce two variants of the Interleaved Multi-Domain Identity Curriculum (IMIC): a gradient-coupled, interleaving training schedule that fine-tunes a foundation backbone simultaneously on all four tasks. The IMIC method proved effective with three foundation model bases: DINOv3, CLIP, and EVA-02. Two of these (EVA-02 and CLIP) performed comparably with domain experts on all four tasks concurrently and were more accurate than humans at multi-tasking across face, body, and object datasets. Further, we demonstrate that our approach does not substantially harm out-of-distribution generalization, thus maintaining a key property of foundation models. Analysis of the most accurate model variants (EVA-02 + IMIC A and B) showed linearly separable representations of the four tasks in the unified embedding space, but with substantial sharing of features across tasks. Fewer than 100 PCs calculated from any one task could perform all other tasks with nearly zero performance degradation.
- Abstract(参考訳): ビジョンファウンデーションモデルは、ゼロショットモードで一般化されたオブジェクト分類を実行し、微調整されたときに顔と人物の認識を行うことができる。
しかし、微調整されたモデルは破滅的な忘れ物に悩まされる。
私たちは、ひとつの埋め込み空間で4つのタスク(物体認識、高品質で低品質の画像からの顔認識、全体像からの人物認識)を実行するモデルを作成します。
そこで本研究では,Interleaved Multi-Domain Identity Curriculum (IMIC: Interleaved Multi-Domain Identity Curriculum) の2つの変種を紹介した。
IMIC法はDINOv3, CLIP, EVA-02の3つの基礎モデルで有効であった。
これら2つ(EVA-02とCLIP)は4つのタスクすべてでドメインエキスパートと並列に実行され、顔、体、オブジェクトデータセットを横断するマルチタスクにおいて、人間よりも正確だった。
さらに,本手法は分布外一般化を著しく損なわず,基礎モデルの鍵となる性質を維持できることを示した。
最も正確なモデル変種 (EVA-02 + IMIC A and B) の解析では、4つのタスクを統合埋め込み空間で線形に分離可能であるが、タスク間で機能を共有している。
1つのタスクから計算された100以上のPCが、ほぼゼロの性能劣化で他のすべてのタスクを実行することができた。
関連論文リスト
- One Dinomaly2 Detect Them All: A Unified Framework for Full-Spectrum Unsupervised Anomaly Detection [37.44241182701723]
教師なし異常検出(UAD)は、特殊な単一クラスモデルの構築から、統一された多クラスモデルへと進化してきた。
Dinomaly2はフルスペクトル像UADのための最初の統一されたフレームワークである。
MVTec-AD と VisA では,前例のない 99.9% と 99.3% の画像レベル (I-) AUROC をそれぞれ達成している。
論文 参考訳(メタデータ) (2025-10-20T14:57:52Z) - PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models [80.65273820998875]
頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
論文 参考訳(メタデータ) (2025-07-11T08:18:52Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology [17.781388341968967]
CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。
CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。
CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
論文 参考訳(メタデータ) (2024-12-16T18:46:58Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [20.379104447051155]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。