論文の概要: Vector-Quantized Vision Foundation Models for Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2502.20263v2
- Date: Sun, 13 Apr 2025 08:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 19:48:45.675852
- Title: Vector-Quantized Vision Foundation Models for Object-Centric Learning
- Title(参考訳): 物体中心学習のためのベクトル量子ビジョン基礎モデル
- Authors: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen,
- Abstract要約: 本稿では,OCL(VQ-VFM-OCL)のためのベクトル量子化VFM(Vector-Quantized VFMs for OCL)を提案する。
私たちのVVOは、オブジェクトの発見と認識のベースラインと、下流の視覚的予測と推論を一貫して上回ります。
- 参考スコア(独自算出の注目度): 18.44580501357929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceiving visual scenes as objects and background -- like humans do -- Object-Centric Learning (OCL) aggregates image or video feature maps into object-level feature vectors, termed \textit{slots}. OCL's self-supervision of reconstructing the input from these aggregated slots struggles with complex object textures, thus Vision Foundation Model (VFM) representations are used as the aggregation input and reconstruction target. However, existing methods leverage VFM representations in diverse ways and often fail to fully exploit their potential. In response, we propose a clean architecture -- Vector-Quantized VFMs for OCL (VQ-VFM-OCL, or VVO) -- that unifies mainstream OCL methods. The key to our unification is simple yet effective, just shared quantizing the same VFM representation as the reconstruction target. Through mathematical modeling and statistical verification, we further analyze why VFM representations facilitate OCL aggregation and how their shared quantization as reconstruction targets strengthens OCL supervision. Experiments show that across different VFMs, aggregators and decoders, our VVO consistently outperforms baselines in object discovery and recognition, as well as downstream visual prediction and reasoning. The source code is available in supplemental files.
- Abstract(参考訳): OCL(Object-Centric Learning)は、画像やビデオの特徴マップをオブジェクトレベルの特徴ベクトルに集約する。
集約されたスロットからの入力を再構築するOCLの自己スーパービジョンは複雑なオブジェクトテクスチャに苦しむため、Vision Foundation Model(VFM)表現は集約入力および再構成ターゲットとして使用される。
しかし、既存の手法は様々な方法でVFM表現を利用しており、しばしばその可能性を完全に活用することができない。
そこで我々は,OCL(VQ-VFM-OCL, VVO)のためのベクトル量子化VFM(Vector-Quantized VFMs for OCL, VQ-VFM-OCL)というクリーンなアーキテクチャを提案する。
我々の統合の鍵は単純だが効果的であり、単に再構築対象と同じVFM表現を定量化するだけである。
数学的モデリングと統計的検証を通じて、VFM表現がOCL集約を促進する理由と、再構成対象としての共有量子化がOCLの監督を強化する方法をさらに分析する。
実験によると、VVOはさまざまなVFM、アグリゲータ、デコーダで、オブジェクトの発見と認識のベースラインと、下流の視覚的予測と推論を一貫して上回っている。
ソースコードは補足ファイルで入手できる。
関連論文リスト
- METOR: A Unified Framework for Mutual Enhancement of Objects and Relationships in Open-vocabulary Video Visual Relationship Detection [25.542175004831844]
Open-vocabulary video visual relationship detectionは、事前に定義されたオブジェクトや関係カテゴリに制限されることなく、ビデオ内のオブジェクトとそれらの関係を検出することを目的としている。
既存の手法では、CLIPのような事前訓練された視覚言語モデルの豊富な意味知識を活用して、新しいカテゴリを識別する。
オープン語彙シナリオにおけるオブジェクト検出と関係分類を相互にモデル化し,相互に強化するために,Multual EnhancemenT of Objects and Relationships (METOR)を提案する。
論文 参考訳(メタデータ) (2025-05-10T14:45:43Z) - Benchmarking Feature Upsampling Methods for Vision Foundation Models using Interactive Segmentation [24.531539125814877]
Vision Foundation Models (VFM) は、様々なコンピュータビジョンタスクの汎用バックボーンとして機能する大規模で事前訓練されたモデルである。
この制限に対処する1つの方法は、VFM機能の解像度を洗練させるタスクに依存しない機能アップサンプリングモジュールを使用することである。
ベンチマーク実験により,適切なアップサンプリング戦略を選択することで,VFMの特徴的品質が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-05-04T11:59:26Z) - Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。
最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。
我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文 参考訳(メタデータ) (2025-04-09T17:59:05Z) - Unlocking the Capabilities of Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在の視覚言語モデル(VLM)は、マルチモーダルデータの理解において顕著な能力を示しているが、そのポテンシャルはディープフェイク検出に過小評価されている。
本稿では,VLMの潜在能力を3つのコンポーネントで解き放つ新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models [31.34575955517015]
Finedeficsは、トレーニングフェーズにオブジェクトの情報属性記述を組み込むことで、モデルのFGVR能力を向上するMLLMである。
我々は、オブジェクト-属性対と属性-カテゴリ対を同時に比較学習し、類似しているが誤ったカテゴリの例をハードネガティブとして利用する。
複数の人気のあるFGVRデータセットに対する広範囲な評価は、Finedeficsが既存のMLLMを同等のパラメータサイズで上回っていることを示している。
論文 参考訳(メタデータ) (2025-01-25T08:52:43Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
我々は,オブジェクト指向学習のためのtextitGroup Discrete Representation (GDR) を提案する。
GDRは、組織化されたチャネルグルーピングを通じて特徴を属性に分解し、これらの属性をインデックスを介して個別の表現に構成する。
論文 参考訳(メタデータ) (2024-11-04T17:25:10Z) - Bootstrapping Top-down Information for Self-modulating Slot Attention [29.82550058869251]
トップダウン経路を組み込んだ新しいOCLフレームワークを提案する。
この経路は個々のオブジェクトのセマンティクスをブートストラップし、モデルを変更してこれらのセマンティクスに関連する特徴を優先順位付けする。
我々のフレームワークは、複数の合成および実世界のオブジェクト発見ベンチマークにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-04T05:00:49Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。