Fugu-MT 論文翻訳(概要): Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations

論文の概要: Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations

arxiv url: http://arxiv.org/abs/2403.07887v1
Date: Fri, 2 Feb 2024 12:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 08:27:08.975844
Title: Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations
Title（参考訳）: ニューラルスロット解釈:創発的スロット表現における接地対象セマンティック
Authors: Bhishma Dedhia, Niraj K. Jha,
Abstract要約: 本稿では,NSI(Neural Slot Interpreter)を提案する。 NSIはXMLに似たプログラミング言語で、単純な構文規則を使ってシーンのオブジェクトの意味をオブジェクト中心のプログラムプリミティブに整理する。
参考スコア（独自算出の注目度）: 4.807052027638089
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object-centric methods have seen significant progress in unsupervised decomposition of raw perception into rich object-like abstractions. However, limited ability to ground object semantics of the real world into the learned abstractions has hindered their adoption in downstream understanding applications. We present the Neural Slot Interpreter (NSI) that learns to ground and generate object semantics via slot representations. At the core of NSI is an XML-like programming language that uses simple syntax rules to organize the object semantics of a scene into object-centric program primitives. Then, an alignment model learns to ground program primitives into slots through a bi-level contrastive learning objective over a shared embedding space. Finally, we formulate the NSI program generator model to use the dense associations inferred from the alignment model to generate object-centric programs from slots. Experiments on bi-modal retrieval tasks demonstrate the efficacy of the learned alignments, surpassing set-matching-based predictors by a significant margin. Moreover, learning the program generator from grounded associations enhances the predictive power of slots. NSI generated programs demonstrate improved performance of object-centric learners on property prediction and object detection, and scale with real-world scene complexity.
Abstract（参考訳）: オブジェクト中心の手法は、教師なしの生の知覚をリッチなオブジェクトのような抽象化に分解する過程で大きな進歩を遂げている。しかし、現実世界のオブジェクトのセマンティクスを学習抽象化に基礎付ける能力に制限があるため、下流の理解アプリケーションでは採用が妨げられている。本稿では,NSI(Neural Slot Interpreter)を提案する。 NSIの中核はXMLライクなプログラミング言語で、単純な構文ルールを使ってシーンのオブジェクトセマンティクスをオブジェクト中心のプログラムプリミティブに整理します。そして、アライメントモデルは、プログラムプリミティブを、共有埋め込み空間上の双方向のコントラスト学習目標を介してスロットに接地することを学習する。最後に、NSIプログラム生成モデルを定式化し、アライメントモデルから推定される高密度な関連を利用してスロットからオブジェクト中心のプログラムを生成する。バイモーダル検索タスクの実験では、学習されたアライメントの有効性が示され、セットマッチングに基づく予測をかなりの差で上回っている。さらに、接地されたアソシエーションからプログラムジェネレータを学習することで、スロットの予測能力を高める。 NSI生成プログラムは、プロパティ予測とオブジェクト検出におけるオブジェクト中心学習者の性能向上と、実世界のシーンの複雑さによるスケール性を示す。

関連論文リスト

Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。物体中心の青写真という認知概念を空間的推論に統合する。我々の手法は既存の視覚言語モデルより一貫して優れている。
論文参考訳（メタデータ） (2026-01-05T10:38:26Z)
ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文参考訳（メタデータ） (2025-07-21T10:06:23Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文参考訳（メタデータ） (2025-03-21T17:51:14Z)
Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。 VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文参考訳（メタデータ） (2025-03-12T21:57:41Z)
Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文参考訳（メタデータ） (2025-03-03T17:57:03Z)
What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。 DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。 DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-09-12T16:41:47Z)
In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文参考訳（メタデータ） (2024-08-09T09:28:35Z)
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [5.476136494434766]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。オブジェクトレベルの表現を画像内および画像間の整合性で学習する。 COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文参考訳（メタデータ） (2024-03-03T11:24:16Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文参考訳（メタデータ） (2023-06-03T21:49:06Z)
Spotlight Attention: Robust Object-Centric Learning With a Spatial Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文参考訳（メタデータ） (2023-05-31T04:35:50Z)
Hyperbolic Contrastive Learning for Visual Representations beyond Objects [30.618032825306187]
我々は,それらの間の構造を保ったオブジェクトやシーンの表現を学習することに集中する。視覚的に類似した物体が表現空間に近接しているという観察に触発された私たちは、シーンとオブジェクトは代わりに階層構造に従うべきだと論じる。
論文参考訳（メタデータ） (2022-12-01T16:58:57Z)
Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文参考訳（メタデータ） (2022-05-30T17:50:59Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Object Pursuit: Building a Space of Objects via Discriminative Weight Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文参考訳（メタデータ） (2021-12-15T08:25:30Z)
SORNet: Spatial Object-Centric Representations for Sequential Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文参考訳（メタデータ） (2021-09-08T19:36:29Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Constellation: Learning relational abstractions over objects for compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文参考訳（メタデータ） (2021-07-23T11:59:40Z)
Language-Mediated, Object-Centric Representation Learning [21.667413971464455]
我々はLORL(Language-mediated, Object-centric Representation Learning)を提案する。 LORLは、視覚と言語から乱れたオブジェクト中心のシーン表現を学習するためのパラダイムである。言語に依存しない様々な教師なしセグメンテーションアルゴリズムと統合できます。
論文参考訳（メタデータ） (2020-12-31T18:36:07Z)
Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。 Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。 Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文参考訳（メタデータ） (2020-06-26T15:31:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。