論文の概要: Interpreting the structure of multi-object representations in vision encoders
- arxiv url: http://arxiv.org/abs/2406.09067v3
- Date: Sun, 06 Apr 2025 13:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:07:10.041420
- Title: Interpreting the structure of multi-object representations in vision encoders
- Title(参考訳): 視覚エンコーダにおける多対象表現の構造の解釈
- Authors: Tarun Khajuria, Braian Olmiro Dias, Marharyta Domnich, Jaan Aru,
- Abstract要約: 我々は、分類、大規模視覚言語モデル、自己教師付き手法に基づいて事前訓練された視覚エンコーダを評価する。
視覚エンコーダ内のトークンや層にオブジェクトワイズ表現がどのように分散されているかを検討する。
本研究は,対象物が事前学習対象物との関連性に応じて,対象物の表現に有意な差異を呈するものである。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License:
- Abstract: In this work, we interpret the representations of multi-object scenes in vision encoders through the lens of structured representations. Structured representations allow modeling of individual objects distinctly and their flexible use based on the task context for both scene-level and object-specific tasks. These capabilities play a central role in human reasoning and generalization, allowing us to abstract away irrelevant details and focus on relevant information in a compact and usable form. We define structured representations as those that adhere to two specific properties: binding specific object information into discrete representation units and segregating object representations into separate sets of tokens to minimize cross-object entanglement. Based on these properties, we evaluated and compared image encoders pre-trained on classification (ViT), large vision-language models (CLIP, BLIP, FLAVA), and self-supervised methods (DINO, DINOv2). We examine the token representations by creating object-decoding tasks that measure the ability of specific tokens to capture individual objects in multi-object scenes from the COCO dataset. This analysis provides insights into how object-wise representations are distributed across tokens and layers within these vision encoders. Our findings highlight significant differences in the representation of objects depending on their relevance to the pre-training objective, with this effect particularly pronounced in the CLS token (often used for downstream tasks). Meanwhile, networks and layers that exhibit more structured representations retain better information about individual objects. To guide practical applications, we propose formal measures to quantify the two properties of structured representations, aiding in selecting and adapting vision encoders for downstream tasks.
- Abstract(参考訳): 本研究では,視覚エンコーダにおける多目的シーンの表現を,構造化された表現のレンズを通して解釈する。
構造化表現は、シーンレベルとオブジェクト固有のタスクの両方のタスクコンテキストに基づいて、個々のオブジェクトのモデリングと柔軟な使用を可能にする。
これらの能力は、人間の推論と一般化において中心的な役割を担い、無関係な詳細を抽象化し、コンパクトで使用可能な形で関連情報に集中することができる。
特定のオブジェクト情報を離散表現単位に結合し、オブジェクト表現を別々のトークン集合に分離することで、オブジェクト間の絡み合いを最小限に抑える。
これらの特性に基づいて、分類(ViT)、大規模視覚言語モデル(CLIP、BLIP、FLAVA)、自己監督手法(DINO、DINOv2)に基づいて事前訓練された画像エンコーダの評価と比較を行った。
我々は,COCOデータセットからの複数オブジェクトシーンにおける個々のオブジェクトをキャプチャする特定のトークンの能力を計測するオブジェクトデコードタスクを作成することにより,トークン表現を検証した。
この分析は、視覚エンコーダ内のトークンや層にオブジェクトワイズ表現がどのように分散されているかについての洞察を提供する。
本研究は,CLSトークン(しばしば下流タスクに使用される)で顕著に発音される,事前学習対象との関連性に応じて,物体の表現に有意な差異が認められた。
一方、より構造化された表現を示すネットワークやレイヤは、個々のオブジェクトに関するより良い情報を保持する。
そこで本研究では,下流タスクにおける視覚エンコーダの選択と適応を支援するために,構造化表現の2つの特性を定量化するための公式な尺度を提案する。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Towards Interpreting Visual Information Processing in Vision-Language Models [24.51408101801313]
VLM(Vision-Language Models)は、テキストや画像の処理と理解のための強力なツールである。
著名なVLMであるLLaVAの言語モデルコンポーネントにおける視覚トークンの処理について検討する。
論文 参考訳(メタデータ) (2024-10-09T17:55:02Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - LLM2Loss: Leveraging Language Models for Explainable Model Diagnostics [5.33024001730262]
我々は、失敗とバイアスのモデルパターンに関するセマンティックな洞察を提供するアプローチを提案する。
このような軽量モデルのアンサンブルを用いて,ブラックボックスモデルの性能に関する洞察を得られることを示す。
論文 参考訳(メタデータ) (2023-05-04T23:54:37Z) - Learning and generalization of compositional representations of visual
scenes [2.960473840509733]
オブジェクト属性の分散表現とベクトルシンボルアーキテクチャにおけるベクトル演算を用いてシーンの完全な構成記述を作成する。
シーン構成を制御するために、複数の、翻訳された、色付きMNIST桁からなる人工画像を使用する。
ディープネットワークの出力はVSA共振器ネットワークによって解釈され、オブジェクトの同一性やその他のオブジェクトの特性を抽出する。
論文 参考訳(メタデータ) (2023-03-23T22:03:42Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。