論文の概要: Inference-Path Optimization via Circuit Duplication in Frozen Visual Transformers for Marine Species Classification
- arxiv url: http://arxiv.org/abs/2604.03428v1
- Date: Fri, 03 Apr 2026 19:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.573403
- Title: Inference-Path Optimization via Circuit Duplication in Frozen Visual Transformers for Marine Species Classification
- Title(参考訳): 魚種分類のための凍結型視覚変換器の回路複製による推論パス最適化
- Authors: Thomas Manuel Rost,
- Abstract要約: サーキット複製(Circuit Duplication)は、もともと大規模言語モデルのために提案された推論時間法である。
凍結したDINOv3埋め込みを用いて,クラス不均衡なAqua20ベンチマークを2つの設定で評価した。
最大ラベル予算では、クラス固有の選択は0.875のマクロF1に達し、完全な教師付きConvNeXtベンチマーク(0.889)へのギャップを勾配ベースのトレーニングなしで1.4ポイントに閉じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated underwater species classification is constrained by annotation cost and environmental variation that limits the transferability of fully supervised models. Recent work has shown that frozen embeddings from self-supervised vision foundation models already provide a strong label-efficient baseline for marine image classification. Here we investigate whether this frozen-embedding regime can be improved at inference time, without fine-tuning or changing model weights. We apply Circuit Duplication, an inference-time method originally proposed for Large Language Models, in which a selected range of transformer layers is traversed twice during the forward pass. We evaluate on the class-imbalanced AQUA20 benchmark using frozen DINOv3 embeddings under two settings: global circuit selection, where a single duplicated circuit is chosen for the full dataset, and class-specific circuit selection, where each species may receive a different optimal circuit. Both settings use simple semi-supervised downstream classifiers. Circuit Duplication consistently improves over the standard frozen forward pass. At the maximum label budget, class-specific selection reaches a macro F1 of 0.875, closing the gap to the fully supervised ConvNeXt benchmark (0.889) to 1.4 points without any gradient-based training. Four species exceed their fully supervised reference, with octopus improving by +12.1 F1 points. Across all budgets, roughly 75% of classes prefer a class-specific circuit, indicating a genuinely class-dependent benefit. To our knowledge, this is the first application of Circuit Duplication to computer vision.
- Abstract(参考訳): 自動水中種分類は、完全に監督されたモデルの転送可能性を制限する注釈コストと環境変動によって制約される。
近年の研究では、自己監督型視覚基盤モデルの凍結埋め込みが、海洋画像分類のための強力なラベル効率のベースラインをすでに提供していることが示されている。
そこで本研究では, 微調整やモデル重みの変更を伴わずに, この凍結埋込み機構を推定時に改善できるかどうかを検討する。
本稿では,従来の大規模言語モデルに対して提案された推論時間法であるCircuit Duplicationを適用する。
我々は,DINOv3の凍結埋め込みを用いたクラス不均衡Aqua20ベンチマークを,全データセットに対して単一重複回路が選択されるグローバル回路選択と,各種が異なる最適回路を受信可能なクラス固有回路選択の2つの設定で評価した。
どちらの設定も単純な半教師付き下流分類器を使用する。
サーキット複製は、標準のフリーズフォワードパスよりも一貫して改善される。
最大ラベル予算では、クラス固有の選択は0.875のマクロF1に達し、完全な教師付きConvNeXtベンチマーク(0.889)へのギャップを勾配ベースのトレーニングなしで1.4ポイントに閉じる。
4つの種が完全に監督された基準を超え、タコは+12.1 F1ポイント向上した。
すべての予算において、クラスの約75%はクラス固有の回路を好んでおり、真にクラスに依存した利点を示している。
我々の知る限り、Circuit Duplicationのコンピュータビジョンへの応用はこれが初めてである。
関連論文リスト
- Multiclass threshold-based classification and model evaluation [4.014524824655106]
標準argmaxルールを一般化する多クラス分類のためのしきい値に基づくフレームワークを提案する。
実験により、多次元しきい値調整により、様々なネットワークやデータセットのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2025-11-26T17:00:00Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class [16.101460010750458]
クラス内の多様性を表現するために、ゼロショット分類は単一のベクトルを超えるべきであると論じる。
そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。
提案手法は,大規模なデータセット群に対して,標準ゼロショット分類よりも一貫して優れることがわかった。
論文 参考訳(メタデータ) (2024-04-25T16:29:06Z) - SemiReward: A General Reward Model for Semi-supervised Learning [58.47299780978101]
半教師付き学習(SSL)は、擬似ラベリングによる自己学習フレームワークの様々な改善により、大きな進歩をみせた。
主な課題は、高品質な擬似ラベルを確認バイアスと区別する方法である。
本稿では、報酬スコアを予測して高品質な擬似ラベルを評価・フィルタリングするセミ教師付きリワードフレームワーク(SemiReward)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:56:41Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Fire Together Wire Together: A Dynamic Pruning Approach with
Self-Supervised Mask Prediction [12.86325214182021]
動的モデルプルーニング(Dynamic Model pruning)は、デプロイ中の各入力サンプルに対する異なるサブネットワークの推測を可能にする、最近の方法である。
現在の動的手法は、間隔損失を誘導することによって正規化を通じて連続的なチャネルゲーティングを学ぶことに依存している。
我々は,CIFARおよびImageNet上で,VGG,ResNet,MobileNetなどのニューラルネットワークの実験を行った。
論文 参考訳(メタデータ) (2021-10-15T17:39:53Z) - Self-Supervised Classification Network [3.8073142980733]
自己監視型エンドツーエンド分類ニューラルネットワークはラベルと表現を同時に学習する。
大規模なImageNetデータセットでうまく機能する最初の監視されていないエンドツーエンドの分類ネットワーク。
論文 参考訳(メタデータ) (2021-03-19T19:29:42Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。