論文の概要: Neural Block-Slot Representations
- arxiv url: http://arxiv.org/abs/2211.01177v1
- Date: Wed, 2 Nov 2022 14:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 11:58:06.115248
- Title: Neural Block-Slot Representations
- Title(参考訳): ニューラルブロックスロット表現
- Authors: Gautam Singh, Yeongbin Kim, Sungjin Ahn
- Abstract要約: ブロックスロット表現(Block-Slot Representation)と呼ばれる,オブジェクト中心の表現を提案する。
従来のスロット表現とは異なり、Block-Slot Representationはスロット内で概念レベルでのアンタングルを提供する。
- 参考スコア(独自算出の注目度): 21.55880985441708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel object-centric representation, called
Block-Slot Representation. Unlike the conventional slot representation, the
Block-Slot Representation provides concept-level disentanglement within a slot.
A block-slot is constructed by composing a set of modular concept
representations, called blocks, generated from a learned memory of abstract
concept prototypes. We call this block-slot construction process Block-Slot
Attention. Block-Slot Attention facilitates the emergence of abstract concept
blocks within a slot such as color, position, and texture, without any
supervision. This brings the benefits of disentanglement into slots and the
representation becomes more interpretable. Similar to Slot Attention, this
mechanism can be used as a drop-in module in any arbitrary neural architecture.
In experiments, we show that our model disentangles object properties
significantly better than the previous methods, including complex textured
scenes. We also demonstrate the ability to compose novel scenes by composing
slots at the block-level.
- Abstract(参考訳): 本稿では,ブロックスロット表現と呼ばれる新しいオブジェクト中心表現を提案する。
従来のスロット表現とは異なり、Block-Slot Representationはスロット内で概念レベルでのアンタングルを提供する。
ブロックスロットは、抽象概念プロトタイプの学習記憶から生成されるブロックと呼ばれるモジュラー概念表現の集合を構成することで構成される。
このブロックスロット構築プロセスはBlock-Slot Attentionと呼ばれます。
ブロックスロット注意(Block-Slot Attention)は、色、位置、テクスチャなどのスロット内の抽象的な概念ブロックの出現を促進する。
これはスロットに絡み合うという利点をもたらし、表現をより解釈しやすくする。
Slot Attentionと同様、任意のニューラルネットワークアーキテクチャにおいて、このメカニズムはドロップインモジュールとして使用できる。
実験では, 複雑なテクスチャシーンを含む従来の手法に比べて, オブジェクト特性をかなり分離したモデルを示す。
また,ブロックレベルでスロットを構成することで,新しいシーンを構成する能力を示す。
関連論文リスト
- Block and Detail: Scaffolding Sketch-to-Image Generation [70.34211439488223]
アーティストの反復的な洗練プロセスと整合する新しいスケッチ・ツー・イメージ・ツールを提案する。
私たちのツールは、ブロックされたストロークをスケッチして、オブジェクトの配置や形を粗く表現し、詳細なストロークを表現して、形やシルエットを洗練します。
反復過程の任意の点において、そのようなスケッチから高忠実度画像を生成するための2パスアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-28T07:09:31Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Object-Centric Learning with Slot Mixture Module [45.62331048595689]
本研究はガウス混合モデルに基づく学習可能なクラスタリング手法を用いる。
他のアプローチとは異なり、スロットはクラスタの中心としてだけでなく、クラスタと割り当てられたベクトル間の距離に関する情報も含んでいる。
Slot Attentionの代わりにこのアプローチを使用することで、オブジェクト中心のシナリオのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-11-08T12:34:36Z) - Efficient Motion Modelling with Variable-sized blocks from Hierarchical
Cuboidal Partitioning [24.100530697346155]
ブロックベースアーキテクチャを用いたモーションモデリングは、フレームを独立して補償される固定サイズのブロックに分割するビデオ符号化において広く用いられている。
我々は、スケーラブルなビデオ符号化に使用される固定サイズのブロックに対して、動きモデリングにおける立方体の可能性について検討した。
論文 参考訳(メタデータ) (2022-08-28T04:13:58Z) - On the Origins of the Block Structure Phenomenon in Neural Network
Representations [32.757486048358416]
本研究では,ブロック構造の起源をデータとトレーニング手法との関連性について検討する。
支配的なPCの特性を解析することにより、ブロック構造が支配的なデータポイントから生じることが分かる。
我々は、この現象が訓練によってどのように進化するかを探求し、そのブロック構造が訓練の早い段階で形づくることを発見した。
論文 参考訳(メタデータ) (2022-02-15T04:30:12Z) - Unifying Nonlocal Blocks for Neural Networks [43.107708207022526]
非局所ブロックは、コンピュータビジョンタスクにおける長距離空間的依存関係をキャプチャするために設計されている。
我々はそれらを解釈するための新しい視点を提供し、完全連結グラフ上で生成されたグラフフィルタの集合と見なす。
より堅牢でフレキシブルなスペクトル非局所ブロックを提案する。
論文 参考訳(メタデータ) (2021-08-05T08:34:12Z) - Structural block driven - enhanced convolutional neural representation
for relation extraction [11.617819771034927]
本稿では,構造ブロック駆動型畳み込みニューラルネットワークの軽量な関係抽出手法を提案する。
構造ブロックとして命名された依存性分析により、エンティティに関連する重要なシーケンシャルトークンを検出します。
我々はマルチスケールcnnを用いてブロックとブロック間の表現のみを符号化する。
論文 参考訳(メタデータ) (2021-03-21T10:23:44Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Disentangled Non-Local Neural Networks [68.92293183542131]
局所的でないブロックを深く研究し、注意を2つの項に分けることができることを示した。
両項の学習を容易にするために両項を分離した非局所ブロックを提示する。
論文 参考訳(メタデータ) (2020-06-11T17:59:22Z) - Few-shot Action Recognition with Permutation-invariant Attention [169.61294360056925]
ビデオブロックを符号化するC3Dエンコーダを用いて、短距離アクションパターンをキャプチャする。
我々は,空間的・時間的注意モジュールと自然主義的自己スーパービジョンを利用する。
提案手法は,HMDB51, UCF101, miniMITデータセット上での最先端技術である。
論文 参考訳(メタデータ) (2020-01-12T10:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。