Fugu-MT 論文翻訳(概要): Recurrent Attention Models with Object-centric Capsule Representation for Multi-object Recognition

論文の概要: Recurrent Attention Models with Object-centric Capsule Representation for Multi-object Recognition

arxiv url: http://arxiv.org/abs/2110.04954v1
Date: Mon, 11 Oct 2021 01:41:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-13 07:48:02.495302
Title: Recurrent Attention Models with Object-centric Capsule Representation for Multi-object Recognition
Title（参考訳）: 多目的認識のためのオブジェクト中心カプセル表現を伴う反復注意モデル
Authors: Hossein Adeli, Seoyoung Ahn, Gregory Zelinsky
Abstract要約: 反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
参考スコア（独自算出の注目度）: 4.143091738981101
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The visual system processes a scene using a sequence of selective glimpses, each driven by spatial and object-based attention. These glimpses reflect what is relevant to the ongoing task and are selected through recurrent processing and recognition of the objects in the scene. In contrast, most models treat attention selection and recognition as separate stages in a feedforward process. Here we show that using capsule networks to create an object-centric hidden representation in an encoder-decoder model with iterative glimpse attention yields effective integration of attention and recognition. We evaluate our model on three multi-object recognition tasks; highly overlapping digits, digits among distracting clutter and house numbers, and show that it learns to effectively move its glimpse window, recognize and reconstruct the objects, all with only the classification as supervision. Our work takes a step toward a general architecture for how to integrate recurrent object-centric representation into the planning of attentional glimpses.
Abstract（参考訳）: 視覚システムは、空間的およびオブジェクトベースの注意によって駆動される選択的な視点のシーケンスを使用してシーンを処理する。これらの視点は、進行中のタスクに関連することを反映し、シーン内のオブジェクトの繰り返し処理と認識によって選択される。対照的に、ほとんどのモデルはフィードフォワードプロセスにおいて注意選択と認識を別々の段階として扱う。本稿では,カプセルネットワークを用いて,注意と認識の効果的な統合を実現するエンコーダ・デコーダモデルにおいて,オブジェクト中心の隠れ表現を生成することを示す。我々は,3つの多目的認識タスクにおいて,高い重なり合う桁数,散らかる乱雑な桁数,住宅数について評価し,視覚窓を効果的に移動させ,オブジェクトを認識・再構成し,これらを監督対象として分類する。我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。

関連論文リスト

Oh-A-DINO: Understanding and Enhancing Attribute-Level Information in Self-Supervised Object-Centric Representations [9.949149600332836]
自己教師付き視覚モデルとスロットベース表現はエッジ由来の幾何学の同定に優れるが、幾何学的でない表面レベルの手がかりを保存できない。 VAE正則化はコンパクトで不整合なオブジェクト中心の表現を強制し、これらの欠落した属性を復元する。
論文参考訳（メタデータ） (2025-03-12T21:57:41Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-04-16T18:15:57Z)
Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文参考訳（メタデータ） (2023-02-07T06:45:19Z)
Understanding Self-Supervised Pretraining with Part-Aware Representation Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文参考訳（メタデータ） (2023-01-27T18:58:42Z)
Reconstruction-guided attention improves the robustness and shape processing of neural networks [5.156484100374057]
オブジェクト再構成を生成する反復エンコーダデコーダネットワークを構築し,トップダウンの注目フィードバックとして利用する。本モデルでは,様々な画像摂動に対して強い一般化性能を示す。本研究は、再構成に基づくフィードバックのモデリングが、強力な注意機構を持つAIシステムを実現することを示す。
論文参考訳（メタデータ） (2022-09-27T18:32:22Z)
SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。 OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2022-04-10T23:27:19Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)
Revisiting spatio-temporal layouts for compositional action recognition [63.04778884595353]
私たちは、アクション認識にオブジェクト中心のアプローチを取ります。本論文の主な焦点は、合成/ファウショット動作認識である。レイアウトモデルとの融合による外観モデルの性能向上を実証する。
論文参考訳（メタデータ） (2021-11-02T23:04:39Z)
Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文参考訳（メタデータ） (2020-10-19T12:36:11Z)
Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。 Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。 Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文参考訳（メタデータ） (2020-06-26T15:31:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。