論文の概要: Visual symbolic mechanisms: Emergent symbol processing in vision language models
- arxiv url: http://arxiv.org/abs/2506.15871v1
- Date: Wed, 18 Jun 2025 20:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.849677
- Title: Visual symbolic mechanisms: Emergent symbol processing in vision language models
- Title(参考訳): 視覚的シンボル機構:視覚言語モデルにおける創発的シンボル処理
- Authors: Rim Assouel, Declan Campbell, Taylor Webb,
- Abstract要約: 視覚言語モデル(VLM)におけるバインディングをサポートする創発的シンボリック機構のセットを同定する。
バインディングエラーがこれらのメカニズムの障害に直接トレースできることが分かりました。
これらの結果は、VLMにおけるシンボルライクな処理をサポートするメカニズムに光を当て、これらのモデルが示す永続的な結合障害に対処するための道筋を示唆している。
- 参考スコア(独自算出の注目度): 1.0923877073891446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To accurately process a visual scene, observers must bind features together to represent individual objects. This capacity is necessary, for instance, to distinguish an image containing a red square and a blue circle from an image containing a blue square and a red circle. Recent work has found that language models solve this 'binding problem' via a set of symbol-like, content-independent indices, but it is unclear whether similar mechanisms are employed by vision language models (VLMs). This question is especially relevant, given the persistent failures of VLMs on tasks that require binding. Here, we identify a set of emergent symbolic mechanisms that support binding in VLMs via a content-independent, spatial indexing scheme. Moreover, we find that binding errors can be traced directly to failures in these mechanisms. Taken together, these results shed light on the mechanisms that support symbol-like processing in VLMs, and suggest possible avenues for addressing the persistent binding failures exhibited by these models.
- Abstract(参考訳): 視覚的なシーンを正確に処理するには、観察者は個々のオブジェクトを表現するために特徴を結合しなければならない。
この能力は、例えば、赤い正方形と青い円を含む画像と青い正方形と赤い円を含む画像とを区別するために必要である。
最近の研究で、言語モデルがこの「結合問題」をシンボルのような、内容に依存しない指標によって解決していることが判明しているが、類似のメカニズムが視覚言語モデル(VLM)によって使用されているかどうかは不明である。
バインディングを必要とするタスクにおけるVLMの持続的障害を考えると、この問題は特に関係がある。
本稿では,コンテンツに依存しない空間インデックス方式を用いて,VLMのバインディングをサポートする創発的シンボリック機構の集合を同定する。
さらに、これらのメカニズムの障害に直接、バインディングエラーをトレースできることが分かりました。
これらの結果は、VLMにおけるシンボルライクな処理をサポートするメカニズムに光を当て、これらのモデルで示される永続的な結合障害に対処するための道のりを示唆している。
関連論文リスト
- Investigating Mechanisms for In-Context Vision Language Binding [17.440725558041258]
VLM(Vision-Language Model)は、画像を認識し、テキストを理解し、両方のモダリティ内で関連性を構築する必要がある。
例えば、「赤いおもちゃの車のイメージ」が与えられたら、このイメージを「車」、「赤いおもちゃ」、「赤い物体」などのフレーズに関連づけるべきである。
論文 参考訳(メタデータ) (2025-05-28T10:25:43Z) - Vision-Language Models Create Cross-Modal Task Representations [58.19152818504624]
視覚言語モデル(VLM)は,概念的に等価な入力を共有タスクベクトルに整合させることができる。
このアライメントを,タスクやモデルアーキテクチャのクロスモーダル転送を通じて測定する。
タスクベクトルはベース言語モデルから微調整された視覚言語モデルに変換可能であることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:59:45Z) - Interpreting the structure of multi-object representations in vision encoders [1.8749305679160366]
我々は、分類、大規模視覚言語モデル、自己教師付き手法に基づいて事前訓練された視覚エンコーダを評価する。
視覚エンコーダ内のトークンや層にオブジェクトワイズ表現がどのように分散されているかを検討する。
本研究は,対象物が事前学習対象物との関連性に応じて,対象物の表現に有意な差異を呈するものである。
論文 参考訳(メタデータ) (2024-06-13T12:54:20Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - How do Language Models Bind Entities in Context? [31.529253469951062]
言語モデル(LM)は、エンティティを属性にバインドし、コンテキスト内情報を正しく使用する必要がある。
我々はバインディングIDのメカニズムを同定し、バインディング問題を解くための一般的なメカニズムを示す。
本研究は,テキスト上での記号的知識を表現するためのLMの解釈可能な戦略を明らかにする。
論文 参考訳(メタデータ) (2023-10-26T07:10:31Z) - Redundancy-aware Transformer for Video Question Answering [71.98116071679065]
本稿では,ビデオQAを冗長性に認識してモデル化することを目的とした,トランスフォーマーに基づく新しいアーキテクチャを提案する。
隣接するフレームの冗長性に対処するために,隣接するフレームのオブジェクトレベルの変化を強調するビデオエンコーダ構造を導入する。
クロスモーダルな冗長性については、新たな適応サンプリングを融合モジュールに装備し、視覚と言語間の相互作用を明確に区別する。
論文 参考訳(メタデータ) (2023-08-07T03:16:24Z) - Reusable Slotwise Mechanisms [45.48002329758044]
スロット間の通信を利用してオブジェクトのダイナミクスをモデル化するフレームワークであるReusable Slotwise Mechanisms(RCM)を紹介する。
RSMはCCI(Central Contextual Information)を活用し、選択したメカニズムが残りのスロットにアクセスできるようにする。
実験により, 最先端手法と比較してRCMの優れた性能が示された。
論文 参考訳(メタデータ) (2023-02-21T08:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。