論文の概要: TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement
- arxiv url: http://arxiv.org/abs/2602.23120v1
- Date: Thu, 26 Feb 2026 15:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.754394
- Title: TriLite: Efficient Weakly Supervised Object Localization with Universal Visual Features and Tri-Region Disentanglement
- Title(参考訳): TriLite: ユニバーサルな視覚特徴とトリリージョンのアンタングルを持つ、効率的で弱められたオブジェクトローカライゼーション
- Authors: Arian Sabaghi, José Oramas,
- Abstract要約: TriLiteは、凍結したVision TransformerとDinov2事前トレーニングを自己管理的に利用する、単一ステージのWSOLフレームワークである。
このモジュールは、パッチ機能をフォアグラウンド、バックグラウンド、曖昧なリージョンに分解する。
- 参考スコア(独自算出の注目度): 1.237556184089774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised object localization (WSOL) aims to localize target objects in images using only image-level labels. Despite recent progress, many approaches still rely on multi-stage pipelines or full fine-tuning of large backbones, which increases training cost, while the broader WSOL community continues to face the challenge of partial object coverage. We present TriLite, a single-stage WSOL framework that leverages a frozen Vision Transformer with Dinov2 pre-training in a self-supervised manner, and introduces only a minimal number of trainable parameters (fewer than 800K on ImageNet-1K) for both classification and localization. At its core is the proposed TriHead module, which decomposes patch features into foreground, background, and ambiguous regions, thereby improving object coverage while suppressing spurious activations. By disentangling classification and localization objectives, TriLite effectively exploits the universal representations learned by self-supervised ViTs without requiring expensive end-to-end training. Extensive experiments on CUB-200-2011, ImageNet-1K, and OpenImages demonstrate that TriLite sets a new state of the art, while remaining significantly more parameter-efficient and easier to train than prior methods. The code will be released soon.
- Abstract(参考訳): 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルのみを使用して、対象オブジェクトを画像にローカライズすることを目的としている。
最近の進歩にもかかわらず、多くのアプローチは依然としてマルチステージパイプラインや大規模なバックボーンの完全な微調整に依存しており、トレーニングコストが増大する一方、WSOLコミュニティは部分的なオブジェクトカバレッジの課題に直面している。
本稿では,Dinov2による凍結型ビジョントランスフォーマーを自己教師付きで活用する単一ステージWSOLフレームワークTriLiteについて紹介し,分類とローカライゼーションの両方に最小限のトレーニング可能なパラメータ(ImageNet-1Kでは800K以下)を導入する。
中心となるTriHeadモジュールは、パッチ機能を前景、背景、曖昧な領域に分解し、刺激的なアクティベーションを抑えながらオブジェクトカバレッジを改善する。
TriLiteは、分類とローカライゼーションの目的を切り離すことによって、高価なエンドツーエンドトレーニングを必要とせずに、自己監督型のViTによって学習された普遍的な表現を効果的に活用する。
CUB-200-2011、ImageNet-1K、OpenImagesの大規模な実験は、TriLiteが新しい最先端技術を設定する一方で、従来の方法よりもはるかにパラメータ効率が高く訓練が容易であることを実証している。
コードはまもなくリリースされる。
関連論文リスト
- Object-level Self-Distillation for Vision Pretraining [5.72299437201838]
最先端のビジョン事前トレーニング手法は、ImageNetのようなオブジェクト中心のデータセットからのイメージレベルの自己蒸留に依存している。
画像全体から個々の物体へ自己蒸留粒度をシフトさせる事前学習手法であるオブジェクトレベル自己DIStillation(ODIS)を導入する。
提案手法は,ViT-Large を用いた ImageNet1k で 82.6% の$k$-NN 精度を実現した。
論文 参考訳(メタデータ) (2025-06-04T15:50:09Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Bridging the Gap between Object and Image-level Representations for
Open-Vocabulary Detection [54.96069171726668]
オープンボキャブラリ検出(OVD)で使用される2種類の弱いスーパービジョンには、事前訓練されたCLIPモデルと画像レベルの監視が含まれる。
本稿では,CLIPモデルから言語埋め込みをオブジェクト中心でアライメントすることでこの問題に対処することを提案する。
上記の2つの対物配向戦略の橋渡しを,新しい重み伝達関数を用いて行う。
論文 参考訳(メタデータ) (2022-07-07T17:59:56Z) - VPIT: Real-time Embedded Single Object 3D Tracking Using Voxel Pseudo Images [90.60881721134656]
本稿では,Voxel Pseudo Image Tracking (VPIT) という,Voxel-based 3D Single Object Tracking (3D SOT) 手法を提案する。
KITTI追跡データセットの実験は、VPITが最速の3D SOT法であり、競合的な成功と精度の値を維持することを示している。
論文 参考訳(メタデータ) (2022-06-06T14:02:06Z) - ViTOL: Vision Transformer for Weakly Supervised Object Localization [0.735996217853436]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのカテゴリラベルのみを用いて、画像内のオブジェクト位置を予測することを目的としている。
画像分類モデルがローカライズ対象の場合に遭遇する一般的な課題は、(a) ローカライズマップを非常に小さな領域に限定する画像において最も識別性の高い特徴を見る傾向にあり、(b) ローカライズマップはクラス非依存であり、モデルは同一画像内の複数のクラスのオブジェクトをハイライトする。
論文 参考訳(メタデータ) (2022-04-14T06:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。