論文の概要: Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search
- arxiv url: http://arxiv.org/abs/2603.13728v1
- Date: Sat, 14 Mar 2026 03:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.367474
- Title: Bodhi VLM: Privacy-Alignment Modeling for Hierarchical Visual Representations in Vision Backbones and VLM Encoders via Bottom-Up and Top-Down Feature Search
- Title(参考訳): Bodhi VLM:ボトムアップとトップダウン機能検索による視覚バックボーンとVLMエンコーダの階層的視覚表現のためのプライバシアライメントモデリング
- Authors: Bo Ma, Jinsong Wu, Wei Qi Yan,
- Abstract要約: emphBodhi VLMは、エンフィエラルな神経表現のためのエンフィバシーアライメント・モデリング・フレームワークである。
NCPやMDAVベースのクラスタリングを通じて、センシティブな概念を階層的にグループ化する。
マルチスケール表現に対するボトムアップ(BUA)とトップダウン(TDA)戦略を使用して、センシティブな特徴領域を特定する。
- 参考スコア(独自算出の注目度): 7.172756746172751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning systems that preserve privacy often inject noise into hierarchical visual representations; a central challenge is to \emph{model} how such perturbations align with a declared privacy budget in a way that is interpretable and applicable across vision backbones and vision--language models (VLMs). We propose \emph{Bodhi VLM}, a \emph{privacy-alignment modeling} framework for \emph{hierarchical neural representations}: it (1) links sensitive concepts to layer-wise grouping via NCP and MDAV-based clustering; (2) locates sensitive feature regions using bottom-up (BUA) and top-down (TDA) strategies over multi-scale representations (e.g., feature pyramids or vision-encoder layers); and (3) uses an Expectation-Maximization Privacy Assessment (EMPA) module to produce an interpretable \emph{budget-alignment signal} by comparing the fitted sensitive-feature distribution to an evaluator-specified reference (e.g., Laplace or Gaussian with scale $c/ε$). The output is reference-relative and is \emph{not} a formal differential-privacy estimator. We formalize BUA/TDA over hierarchical feature structures and validate the framework on object detectors (YOLO, PPDPTS, DETR) and on the \emph{visual encoders} of VLMs (CLIP, LLaVA, BLIP). BUA and TDA yield comparable deviation trends; EMPA provides a stable alignment signal under the reported setups. We compare with generic discrepancy baselines (Chi-square, K-L, MMD) and with task-relevant baselines (MomentReg, NoiseMLE, Wass-1). Results are reported as mean$\pm$std over multiple seeds with confidence intervals in the supplementary materials. This work contributes a learnable, interpretable modeling perspective for privacy-aligned hierarchical representations rather than a post hoc audit only. Source code: \href{https://github.com/mabo1215/bodhi-vlm.git}{Bodhi-VLM GitHub repository}
- Abstract(参考訳): プライバシーを保護している学習システムは、しばしば階層的な視覚表現にノイズを注入する; 中心的な課題は、そのような摂動が宣言されたプライバシー予算とどのように一致しているかを、視覚バックボーンや視覚言語モデル(VLM)にまたがって解釈可能で適用することができるかである。
1) NCP と MDAV によるクラスタリングによる階層的グループ化,(2) ボトムアップ(BUA) とトップダウン(TDA) によるマルチスケール表現(例えば,特徴ピラミッドやビジョンエンコーダ層) によるセンシティブな特徴領域の探索,(3) 適応可能な \emph{budget-alignment 信号を生成するための予測最大化プライバシーアセスメント (EMPA) モジュールの利用,などである。
出力は参照相対性であり、形式的な差分プライバシー推定器 \emph{not} である。
我々は,階層的な特徴構造に対してBUA/TDAを定式化し,オブジェクト検出器(YOLO,PPDPTS,DETR)およびVLM(CLIP,LLaVA,BLIP)のemph{visual encoders}上のフレームワークを検証する。
BUAとTDAは同等の偏差傾向を示し、EMPAは報告された設定の下で安定したアライメント信号を提供する。
一般的な不一致ベースライン(Chi-square, K-L, MMD)とタスク関連ベースライン(MomentReg, NoiseMLE, Wass-1)を比較した。
その結果, 補助材料中の信頼区間を有する複数の種子に対する平均$\pm$stdが報告された。
この研究は、ポストホック監査のみではなく、プライバシに整合した階層表現の学習可能かつ解釈可能なモデリング視点に寄与する。
ソースコード: \href{https://github.com/mabo1215/bodhi-vlm.git}{Bodhi-VLM GitHub repository
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models [23.263895549689863]
既存の手法は、言語のトークンのみを監督に用いながら、次世代の予測損失にのみ依存する。
mnameは、微粒な3次元幾何学的意味情報を保持するために、中間点のクラウドトークンを明示的に監督する。
モデルNet40および逆データセットを用いた実験により,本手法は,分類タスクの平均値に対して,textbf2.08ppの改善を達成できることを示した。
論文 参考訳(メタデータ) (2026-02-28T02:17:46Z) - What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。
本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。
我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文 参考訳(メタデータ) (2025-12-11T16:39:53Z) - CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [56.30142869506262]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
我々は、ベンチマークYouRefItデータセットの広範な実験と分析を通じてアプローチを検証し、0.25IoU閾値で約4mAPの改善を実現した。
論文 参考訳(メタデータ) (2025-07-29T15:00:21Z) - Are Multimodal Large Language Models Ready for Omnidirectional Spatial Reasoning? [66.88619941063048]
MLLM(Multimodal large language model)は全方向空間推論に対応しているのか?
OSR-Benchはこの設定のために特別に設計された最初のベンチマークである。
高忠実度パノラマ屋内シーンマップには、153,000以上の多様な質問応答ペアが含まれている。
GPT-4o, Gemini 1.5 Proを含む8つの最先端MLLMを評価し, ゼロショット設定で主要なオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2025-05-17T08:48:40Z) - TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
本稿では,視覚言語ナビゲーション(VLN)タスクに対して,問題を4つのサブモジュールに分解してモジュール化する手法を提案する。
自然言語によるナビゲーションの指導を受けると、まずLLMにランドマークと訪問順序を抽出するよう促す。
環境のトポロジカルマップ上の最短経路アルゴリズムを用いて,開始位置から最終ランドマークまでの経路仮説を生成する。
論文 参考訳(メタデータ) (2025-02-11T07:09:37Z) - TANGO: Clustering with Typicality-Aware Nonlocal Mode-Seeking and Graph-Cut Optimization [2.4783546111391215]
密度に基づくモード探索法は,低密度点から高密度近傍への遠心依存性を生成する。
両言語の観点から, 局所的に定義された依存関係を探索することにより, 固有性という新しい概念を導入する。
我々は,グローバルビューの典型性を利用して,モードを効果的かつ効率的に識別するアルゴリズムを考案する。
論文 参考訳(メタデータ) (2024-08-19T15:26:25Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。