論文の概要: Spatially Grounded Concept Bottleneck Models via Part-Factorized Attention
- arxiv url: http://arxiv.org/abs/2606.04364v2
- Date: Wed, 10 Jun 2026 18:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.392193
- Title: Spatially Grounded Concept Bottleneck Models via Part-Factorized Attention
- Title(参考訳): 部分的注意による空間接地型概念ボトルネックモデル
- Authors: Dhanesh Ramachandram,
- Abstract要約: 概念ボトルネックモデル(CBM)は、クラスを予測する前に、人名属性の層を予測する。
この研究は、その自由を建設によって取り除く部分分解型CBMの研究である。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept bottleneck models (CBMs) predict a layer of human-named attributes before predicting a class, which makes their decisions auditable. On fine-grained recognition tasks the concept heads are usually free to attend anywhere in the image, so a head named for one body region can be satisfied by evidence on another. This work studies a part-factorized CBM that removes that freedom by construction. The method has three components built on a frozen DINOv3 vision transformer. A learned foreground gate, trained on DINOv3 patch features, suppresses background patches inside the part attention. A set of part queries cross-attends to patch features and each of the 312 CUB attributes is routed, through a fixed concept-to-part map, to read only from the part token its name implies. A learnable two-dimensional Gaussian prior, injected additively in log space into the attention logits, breaks the permutation symmetry among part queries; its means are initialized from the dataset-average keypoint location of each part, which requires no per-image keypoint supervision at training or test time. On CUB-200-2011 the spatial-prior model matches a fully supervised baseline (88.85% versus 88.95% top-1) while raising pointing accuracy by 16 points (52.6% versus 36.4%). Replacing bounding-box supervision with a PCA foreground target and combining it with the Gaussian prior removes all per-image supervision and reaches 88.6% top-1 at about 70% pointing accuracy. A keypoint-fraction sweep shows that 0.5% of the training set (about 27 images) suffices to initialize the prior with no measurable loss. Removing part identity entirely is the harder case: without any spatial prior, pointing accuracy collapses to $2.9\%$.
- Abstract(参考訳): 概念ボトルネックモデル(CBM)は、クラスを予測する前に人名属性の層を予測する。
微粒な認識タスクでは、コンセプトヘッドは通常、画像のどこにでも参加できるので、ある身体領域に割り当てられたヘッドは、別の身体領域に関する証拠によって満足することができる。
この研究は、その自由を建設によって取り除く部分分解型CBMの研究である。
この方法は3つのコンポーネントを凍結したDINOv3ビジョントランス上に構築する。
DINOv3パッチ機能に基づいてトレーニングされた学習されたフォアグラウンドゲートは、パートアテンション内のバックグラウンドパッチを抑圧する。
機能と312のCUB属性のそれぞれに、固定された概念から部分へのマップをルーティングして、その名前が示す部分トークンからのみ読み込む。
学習可能な2次元ガウス前のガウスは、ログ空間に付加的にアテンションロジットに注入され、パートクエリ間の置換対称性を破る。
CUB-200-2011では、空間優先モデルは完全な教師付きベースライン(88.85%対88.95%トップ-1)と一致し、ポイント精度は16ポイント(52.6%対36.4%)上昇した。
PCAフォアグラウンドのターゲットにリプレースし、ガウシアンと組み合わせることで、画像ごとの監督を全て取り除き、約70%の精度で88.6%のトップ-1に達する。
キーポイント・フレクション・スイープは、トレーニングセット(約27の画像)の0.5%が、測定可能な損失を伴わずに前者を初期化するのに十分であることを示している。
空間的先行がなければ、精度は2.9 %$に低下する。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Frozen Vision Transformers for Dense Prediction on Small Datasets: A Case Study in Arrow Localization [0.0]
本研究では,40,cmの屋内動脈ターゲット面に矢状穴の自動検出,局所化,採点を行うシステムを提案する。
私たちのパイプラインは、カラーベースの正準整流ステージ、凍結した自己監督型視覚変換器、そして特徴アップサンプリングという3つのコンポーネントを組み合わせています。
3つの交叉倍数で、平均F1スコアは0.893 pm 0.011$で、平均ローカライゼーション誤差は1.41 pm 0.06$,mmである。
論文 参考訳(メタデータ) (2026-04-18T00:17:48Z) - Object-Pose Estimation With Neural Population Codes [4.557963624437784]
オブジェクト対称性は、感覚入力のオブジェクト回転への直接マッピングを複雑にする。
ニューラルネットワークによる物体回転の表現は,これらの制限を克服することを示す。
我々は、Apple M1 CPU上で3.2ミリ秒で推論を行う。
論文 参考訳(メタデータ) (2025-02-19T03:23:43Z) - SD-Net: Symmetric-Aware Keypoint Prediction and Domain Adaptation for 6D Pose Estimation In Bin-picking Scenarios [2.786599193929693]
対称認識型キーポイント予測と自己学習領域適応(SD-Net)を備えた新しい6次元ポーズ推定ネットワークを提案する。
キーポイント予測段階では,高度に隠蔽されたシーンにおいても,ロバストな3Dキーポイント選択戦略を設計し,3Dキーポイントを特定する。
ドメイン適応段階において,学生-教員養成方式を用いた自己学習フレームワークを提案する。
パブリックなSil'eaneデータセットでは、SD-Netは最先端の結果を達成し、平均精度は96%である。
論文 参考訳(メタデータ) (2024-03-14T12:08:44Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Centroid-centered Modeling for Efficient Vision Transformer Pre-training [44.24223088955106]
Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。
提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。
提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-03-08T15:34:57Z) - Quality-aware Part Models for Occluded Person Re-identification [77.24920810798505]
咬合は人体再識別(ReID)にとって大きな課題となる
既存のアプローチは一般的に、計算効率とReIDの精度の両面で最適であるように、目に見える身体の部品を推測するための外部ツールに依存している。
閉塞型ReIDのためのQPM(Quality-Aware Part Models)という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:51:09Z) - Completely Self-Supervised Crowd Counting via Distribution Matching [92.09218454377395]
我々は,密集した群集数に対するトレーニングモデルに対する完全な自己超越的アプローチを提案する。
トレーニングに必要な入力は、大量の未ラベルの群衆画像以外は、群衆数に近似した上限である。
提案手法は,自然群集が逆伝播の誤り信号を生成するために利用可能な電力法分布に従うという考え方に富む。
論文 参考訳(メタデータ) (2020-09-14T13:20:12Z) - BRUL\`E: Barycenter-Regularized Unsupervised Landmark Extraction [2.2758845733923687]
画像特徴の教師なし検索は、アノテーションが欠けている、あるいは不足している多くのコンピュータビジョンタスクにとって不可欠である。
画像中のランドマークを検出するための教師なしの新たなアプローチを提案し,人間の顔のキーポイント抽出の一般的なタスク上で検証する。
提案手法は,非重要情報を捨てつつ,潜在空間における所望のランドマークを自動エンコードする手法に基づく。
論文 参考訳(メタデータ) (2020-06-20T20:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。