Fugu-MT 論文翻訳(概要): Bootstrapping Top-down Information for Self-modulating Slot Attention

論文の概要: Bootstrapping Top-down Information for Self-modulating Slot Attention

arxiv url: http://arxiv.org/abs/2411.01801v1
Date: Mon, 04 Nov 2024 05:00:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.951374
Title: Bootstrapping Top-down Information for Self-modulating Slot Attention
Title（参考訳）: 自己変調スロット注意のためのトップダウン情報のブートストラップ
Authors: Dongwon Kim, Seoyeon Kim, Suha Kwak,
Abstract要約: トップダウン経路を組み込んだ新しいOCLフレームワークを提案する。この経路は個々のオブジェクトのセマンティクスをブートストラップし、モデルを変更してこれらのセマンティクスに関連する特徴を優先順位付けする。我々のフレームワークは、複数の合成および実世界のオブジェクト発見ベンチマークにまたがって最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 29.82550058869251
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object-centric learning (OCL) aims to learn representations of individual objects within visual scenes without manual supervision, facilitating efficient and effective visual reasoning. Traditional OCL methods primarily employ bottom-up approaches that aggregate homogeneous visual features to represent objects. However, in complex visual environments, these methods often fall short due to the heterogeneous nature of visual features within an object. To address this, we propose a novel OCL framework incorporating a top-down pathway. This pathway first bootstraps the semantics of individual objects and then modulates the model to prioritize features relevant to these semantics. By dynamically modulating the model based on its own output, our top-down pathway enhances the representational quality of objects. Our framework achieves state-of-the-art performance across multiple synthetic and real-world object-discovery benchmarks.
Abstract（参考訳）: オブジェクト中心学習(OCL)は、視覚的シーン内の個々のオブジェクトの表現を手動による監督なしで学習することを目的としており、効果的かつ効果的な視覚的推論を促進する。従来のOCL法は主に、オブジェクトを表現するために均質な視覚的特徴を集約するボトムアップアプローチを採用している。しかし、複雑な視覚環境においては、オブジェクト内の視覚的特徴の不均一性のため、これらの手法は不足することが多い。そこで本研究では,トップダウン経路を組み込んだ新しいOCLフレームワークを提案する。この経路はまず個々のオブジェクトのセマンティクスをブートストラップし、その後モデルを変調してこれらのセマンティクスに関連する特徴を優先順位付けする。モデル自体の出力を動的に調整することで、トップダウンパスはオブジェクトの表現品質を高める。我々のフレームワークは、複数の合成および実世界のオブジェクト発見ベンチマークにまたがって最先端のパフォーマンスを実現する。

関連論文リスト

Are We Done with Object-Centric Learning? [65.67948794110212]
オブジェクト中心学習(OCL)は、シーン内の他のオブジェクトやバックグラウンドキューから分離されたオブジェクトのみをエンコードする表現を学習しようとする。最近のサンプル効率のセグメンテーションモデルでは、ピクセル空間内のオブジェクトを分離し、それらを独立に符号化することができる。我々は,OCLのレンズを通した背景刺激によるOOD一般化の課題に対処する。
論文参考訳（メタデータ） (2025-04-09T17:59:05Z)
v-CLR: View-Consistent Learning for Open-World Instance Segmentation [24.32192108470939]
バニラ視覚ネットワークは、オブジェクトを認識するために外観情報、例えばテクスチャを学ぶことに偏っている。この暗黙のバイアスは、オープンワールド設定で見えないテクスチャを持つ新しいオブジェクトの検出において、モデルが失敗する原因となる。本稿では、堅牢なインスタンスセグメンテーションのための外観不変表現を学習するためにモデルを強制することを目的としたビュー一貫性LeaRning(v-CLR)を提案する。
論文参考訳（メタデータ） (2025-04-02T05:52:30Z)
Object-Aware DINO (Oh-A-Dino): Enhancing Self-Supervised Representations for Multi-Object Instance Retrieval [1.4272411349249627]
DINOのような自己監督型視覚モデルは、創発的なオブジェクト理解を示している。 DINO表現はグローバルなオブジェクト属性のキャプチャに優れていますが、色のようなオブジェクトレベルの詳細には苦労しています。本稿では,DINO表現をオブジェクト中心の潜在ベクトルに拡張することで,グローバルな特徴と局所的な特徴を結合する手法を提案する。
論文参考訳（メタデータ） (2025-03-12T21:57:41Z)
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-26T06:34:48Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。 RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文参考訳（メタデータ） (2024-05-17T07:48:27Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。 OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2022-04-10T23:27:19Z)
Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文参考訳（メタデータ） (2020-10-19T12:36:11Z)
Look-into-Object: Self-supervised Structure Modeling for Object Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2020-03-31T12:22:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。