論文の概要: Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations
- arxiv url: http://arxiv.org/abs/2403.07887v3
- Date: Mon, 17 Feb 2025 02:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:05.880692
- Title: Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations
- Title(参考訳): ニューラルスロット解釈:創発的スロット表現における接地対象セマンティック
- Authors: Bhishma Dedhia, Niraj K. Jha,
- Abstract要約: スロット内のオブジェクトのセマンティクスを学習するニューラルスロットインタプリタ(NSI)を提案する。
バイモーダルなオブジェクトプロパティとシーン検索タスクによる実験は、NSIが学習した対応の基盤的有効性と解釈可能性を示す。
また、実世界のオブジェクト発見において、接地されたスロットが教師なしのスロットを超越し、シーンの複雑さとともにスケールすることが示される。
- 参考スコア(独自算出の注目度): 4.807052027638089
- License:
- Abstract: Several accounts of human cognition posit that our intelligence is rooted in our ability to form abstract composable concepts, ground them in our environment, and reason over these grounded entities. This trifecta of human thought has remained elusive in modern intelligent machines. In this work, we investigate whether slot representations extracted from visual scenes serve as appropriate compositional abstractions for grounding and reasoning. We present the Neural Slot Interpreter (NSI), which learns to ground object semantics in slots. At the core of NSI is an XML-like schema that uses simple syntax rules to organize the object semantics of a scene into object-centric schema primitives. Then, the NSI metric learns to ground primitives into slots through a structured contrastive learning objective that reasons over the intermodal alignment. Experiments with a bi-modal object-property and scene retrieval task demonstrate the grounding efficacy and interpretability of correspondences learned by NSI. From a scene representation standpoint, we find that emergent NSI slots that move beyond the image grid by binding to spatial objects facilitate improved visual grounding compared to conventional bounding-box-based approaches. From a data efficiency standpoint, we empirically validate that NSI learns more generalizable representations from a fixed amount of annotation data than the traditional approach. We also show that the grounded slots surpass unsupervised slots in real-world object discovery and scale with scene complexity. Finally, we investigate the reasoning abilities of the grounded slots. Vision Transformers trained on grounding-aware NSI tokenizers using as few as ten tokens outperform patch-based tokens on challenging few-shot classification tasks.
- Abstract(参考訳): 人間の認知に関するいくつかの説明は、私たちの知性は、抽象的な構成可能な概念を形成し、環境にそれらを根ざし、これらの基礎となる実体を理性的に説明できる能力に根ざしている、と示唆している。
この人間の思考のトリエフェクトは、現代の知能機械ではいまだに解明されていない。
本研究では,視覚シーンから抽出したスロット表現が,グラウンドディングや推論の適切な構成的抽象化であるかどうかを考察する。
スロット内のオブジェクトのセマンティクスを学習するニューラルスロットインタプリタ(NSI)を提案する。
NSIの中核はXMLライクなスキーマで、シンプルな構文ルールを使用してシーンのオブジェクトセマンティクスをオブジェクト中心のスキーマプリミティブに整理する。
そして、NSIメトリックは、相互アライメントの理由となる構造化されたコントラスト学習目標を通じて、プリミティブをスロットに接地することを学ぶ。
バイモーダルなオブジェクトプロパティとシーン検索タスクによる実験は、NSIが学習した対応の基盤的有効性と解釈可能性を示す。
シーン表現の観点からは,空間オブジェクトにバインドすることでイメージグリッドを超えて移動する初期NSIスロットが,従来のバウンディングボックスベースのアプローチに比べて視覚的グラウンド化を促進することが分かる。
データ効率の観点から NSI が従来の手法よりも一定の量のアノテーションデータからより一般化可能な表現を学習できることを実証的に検証する。
また、実世界のオブジェクト発見において、接地されたスロットが教師なしのスロットを超越し、シーンの複雑さとともにスケールすることが示される。
最後に,接地スロットの推論能力について検討する。
ビジョントランスフォーマーは、10個のトークンを使用してグラウンドティング対応のNSIトークンライザをトレーニングし、パッチベースのトークンよりも優れている。
関連論文リスト
- What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - Hyperbolic Contrastive Learning for Visual Representations beyond
Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。
視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文 参考訳(メタデータ) (2022-12-01T16:58:57Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。