論文の概要: Formalizing the Binding Problem
- arxiv url: http://arxiv.org/abs/2606.03976v1
- Date: Tue, 02 Jun 2026 17:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.239196
- Title: Formalizing the Binding Problem
- Title(参考訳): 結合問題の定式化
- Authors: Lianghuan Huang, Yihao Li, Saeed Salehi, Yingshan Chang, Ansh Soni, Konrad P. Kording,
- Abstract要約: ビジョントランスフォーマー(ViT)は、どのパッチが一緒にあるかを知っている。
現在のディープラーニングモデルがバインディング情報を示すことを学ぶかどうかは不明だ。
ここでは,結合問題を情報理論のアプローチで定式化する。
- 参考スコア(独自算出の注目度): 13.31125986159127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representations of the world, arguably, contain information about features (e.g. something is blue, something is a circle) but also information about which features are part of the same object (e.g. the circle is blue), which we call binding information. Any system with the ability to understand scenes with multiple objects must be able to solve the binding problem: it needs to know which features belong together. However, despite work showing that Vision Transformers (ViTs) know which patches belong together, it is not known whether current deep learning models learn to exhibit binding information, i.e., for features. We may believe that there is not much binding information, after all misattributing features to wrong objects is a common failure of ViT-based architectures, especially in scenes with objects sharing features. Here we formalize the binding problem with an information-theoretic approach, and introduce a probing method to measure binding information in model representations. We perform experiments on ViTs, measuring binding from different components of the architecture, such as the image summary token [CLS] or the spatial tokens. We use datasets with different binding challenges, such as feature sharing, occlusion, and natural features, while comparing the performance of several pre-trained ViTs. Overall, our research demonstrates binding as a key ingredient to strong visual recognition and reasoning.
- Abstract(参考訳): 世界の表現は、間違いなく、特徴に関する情報(例えば、あるものは青、あるものは円)を含むが、どの特徴が同じ対象の一部であるか(例えば、円は青)は、結合情報と呼ばれる。
複数のオブジェクトでシーンを理解する能力を持つシステムは、バインディングの問題を解決する必要がある。
しかし、ViT(Vision Transformer)がどのパッチが一緒にあるかを知ることはできるが、現在のディープラーニングモデルが結合情報、すなわち機能を示すことを学ぶかどうかは不明である。
間違ったオブジェクトへの機能への誤った貢献はすべて、ViTベースのアーキテクチャの一般的な失敗であり、特にオブジェクト共有機能のあるシーンでは、バインド情報があまりないと考えるかもしれません。
本稿では,情報理論的な手法でバインディング問題を定式化し,モデル表現におけるバインディング情報を測定するための探索手法を提案する。
画像要約トークン(CLS)や空間トークンなど,アーキテクチャのさまざまなコンポーネントからのバインディングを測定する。
私たちは、いくつかのトレーニング済みViTのパフォーマンスを比較しながら、機能共有、閉塞、自然特徴などの異なるバインディング課題を持つデータセットを使用します。
全体としては、強い視覚認識と推論のための重要な要素として、バインディングが実証されている。
関連論文リスト
- How can embedding models bind concepts? [22.159388085418627]
人間は、マルチオブジェクトシーンでどの色がどの形状に属するかを簡単に決定できる。
CLIPのような視覚言語による埋め込みモデルは概念バインディングと競合する。
バインディングの一般化が十分なデータカバレッジで現れることを示す。
論文 参考訳(メタデータ) (2026-05-29T16:23:41Z) - Finding Distributed Object-Centric Properties in Self-Supervised Transformers [59.00547715011873]
自己監督型視覚変換器(ViT)は、最終層のトークンアテンションマップでよく見られる、オブジェクトを発見できる創発的な能力を示す。
これは、[]トークンがイメージレベルの目的に基づいてトレーニングされ、オブジェクトにフォーカスするのではなく、全体像を要約しているためです。
我々は、この分散オブジェクト中心情報を抽出するトレーニング不要なObject-DINOを提案する。
論文 参考訳(メタデータ) (2026-03-27T07:22:04Z) - Does Object Binding Naturally Emerge in Large Pretrained Vision Transformers? [11.078284195461578]
事前学習された視覚変換器(ViT)にオブジェクトバインディングが出現することを示す。
その結果,IsSameObjectはオブジェクト上の低次元部分空間に符号化されており,この信号が注目を集めていることがわかった。
我々の研究は、ViTがオブジェクト結合を欠いているという見解に挑戦し、コネクショナリストシステムにおいて「どの部分が一緒に属しているか」という象徴的な知識がどのように自然に現れるかを強調した。
論文 参考訳(メタデータ) (2025-10-28T17:57:05Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - v-CLR: View-Consistent Learning for Open-World Instance Segmentation [24.32192108470939]
バニラ視覚ネットワークは、オブジェクトを認識するために外観情報、例えばテクスチャを学ぶことに偏っている。
この暗黙のバイアスは、オープンワールド設定で見えないテクスチャを持つ新しいオブジェクトの検出において、モデルが失敗する原因となる。
本稿では、堅牢なインスタンスセグメンテーションのための外観不変表現を学習するためにモデルを強制することを目的としたビュー一貫性LeaRning(v-CLR)を提案する。
論文 参考訳(メタデータ) (2025-04-02T05:52:30Z) - Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis [98.21700880115938]
Text-to-image (T2I) モデルは、しばしば入力プロンプトに意味的に関連付けられたオブジェクトや属性を正確に結合するのに失敗する。
Token Merging(ToMe)と呼ばれる新しい手法を導入し、関連するトークンを1つの複合トークンに集約することでセマンティックバインディングを強化する。
論文 参考訳(メタデータ) (2024-11-11T17:05:15Z) - Object Attribute Matters in Visual Question Answering [15.705504296316576]
本稿では,オブジェクト属性の活用の観点から,新しいVQAアプローチを提案する。
属性融合モジュールはマルチモーダルグラフニューラルネットワークを構築し、メッセージパッシングを通じて属性と視覚的特徴を融合する。
オブジェクトレベルの視覚言語アライメントの改善により、マルチモーダルシーンの理解が容易になり、モデルの堅牢性が改善される。
論文 参考訳(メタデータ) (2023-12-20T12:46:30Z) - Learning Dynamic Attribute-factored World Models for Efficient
Multi-object Reinforcement Learning [6.447052211404121]
多くの強化学習タスクでは、エージェントは異なるタイプの多くのオブジェクトと対話し、目に見えない組み合わせやオブジェクト数に一般化する必要がある。
最近の研究は、サンプル効率を改善するために、オブジェクト指向表現と階層的抽象化の利点を示している。
本稿では、動的属性FacTored RL(DAFT-RL)フレームワークを導入し、オブジェクト属性の係数化の利点を利用する。
論文 参考訳(メタデータ) (2023-07-18T12:41:28Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Learning to Compose Visual Relations [100.45138490076866]
我々は,各関係を非正規化密度(エネルギーベースモデル)として表現することを提案する。
このような分解を分解することで、複数の関係を持つシーンをより忠実に生成・編集できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:51:29Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。