Fugu-MT 論文翻訳(概要): Learning Global Object-Centric Representations via Disentangled Slot Attention

論文の概要: Learning Global Object-Centric Representations via Disentangled Slot Attention

arxiv url: http://arxiv.org/abs/2410.18809v1
Date: Thu, 24 Oct 2024 14:57:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.962537
Title: Learning Global Object-Centric Representations via Disentangled Slot Attention
Title（参考訳）: 絡み合ったスロットアテンションによるグローバルオブジェクト中心表現の学習
Authors: Tonglin Chen, Yinxuan Huang, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue,
Abstract要約: 本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。
参考スコア（独自算出の注目度）: 38.78205074748021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans can discern scene-independent features of objects across various environments, allowing them to swiftly identify objects amidst changing factors such as lighting, perspective, size, and position and imagine the complete images of the same object in diverse settings. Existing object-centric learning methods only extract scene-dependent object-centric representations, lacking the ability to identify the same object across scenes as humans. Moreover, some existing methods discard the individual object generation capabilities to handle complex scenes. This paper introduces a novel object-centric learning method to empower AI systems with human-like capabilities to identify objects across scenes and generate diverse scenes containing specific objects by learning a set of global object-centric representations. To learn the global object-centric representations that encapsulate globally invariant attributes of objects (i.e., the complete appearance and shape), this paper designs a Disentangled Slot Attention module to convert the scene features into scene-dependent attributes (such as scale, position and orientation) and scene-independent representations (i.e., appearance and shape). Experimental results substantiate the efficacy of the proposed method, demonstrating remarkable proficiency in global object-centric representation learning, object identification, scene generation with specific objects and scene decomposition.
Abstract（参考訳）: 人間は、様々な環境にまたがる物体のシーンに依存しない特徴を識別することができ、照明、視点、大きさ、位置などの変化要因の中で素早く物体を識別し、異なる設定で同じ物体の完全な像を想像することができる。既存のオブジェクト中心学習法は、シーン依存のオブジェクト中心表現のみを抽出し、人間とシーンをまたいだ同一のオブジェクトを識別する能力が欠如している。さらに、既存のメソッドは複雑なシーンを扱うために個々のオブジェクト生成機能を破棄しています。本稿では,AIシステムに人間のような能力を持たせることによって,シーンを横断するオブジェクトを識別し,グローバルなオブジェクト中心表現の集合を学習することで,特定のオブジェクトを含む多様なシーンを生成する,新たなオブジェクト中心学習手法を提案する。オブジェクトのグローバルな不変属性(完全な外観と形状)をカプセル化するグローバルなオブジェクト中心表現を学習するために、この論文は、シーン特徴をシーン依存属性(スケール、位置、方向など)とシーン非依存の表現(外観と形状)に変換するために、Distangled Slot Attentionモジュールを設計する。実験により,提案手法の有効性を実証し,グローバルなオブジェクト中心表現学習,オブジェクト識別,特定のオブジェクトを用いたシーン生成,シーン分解に顕著な習熟性を示した。

関連論文リスト

CTRL-O: Language-Controllable Object-Centric Visual Representation Learning [30.218743514199016]
オブジェクト中心表現学習は、視覚シーンを「スロット」または「オブジェクトファイル」と呼ばれる固定サイズのベクトルに分解することを目的としている。現在のオブジェクト中心モデルは、ユーザがどのオブジェクトが表現されているかをガイドすることなく、事前に考えられたオブジェクトの理解に基づいて表現を学習する。言語記述の条件付けによるスロット表現に対するユーザ指向制御のための新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-27T17:53:50Z)
Object-Aware DINO (Oh-A-Dino): Enhancing Self-Supervised Representations for Multi-Object Instance Retrieval [1.4272411349249627]
DINOのような自己監督型視覚モデルは、創発的なオブジェクト理解を示している。 DINO表現はグローバルなオブジェクト属性のキャプチャに優れていますが、色のようなオブジェクトレベルの詳細には苦労しています。本稿では,DINO表現をオブジェクト中心の潜在ベクトルに拡張することで,グローバルな特徴と局所的な特徴を結合する手法を提案する。
論文参考訳（メタデータ） (2025-03-12T21:57:41Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文参考訳（メタデータ） (2023-09-25T10:23:40Z)
AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文参考訳（メタデータ） (2023-07-18T17:59:02Z)
Compositional Scene Modeling with Global Object-Centric Representations [44.43366905943199]
人間は、メモリ内の標準画像に基づいて閉塞された部分を完了させることで、たとえ閉塞物が存在するとしても、同じ物体を容易に識別することができる。本稿では,オブジェクトの標準画像のグローバルな表現を,監督なしに推測する合成シーンモデリング手法を提案する。
論文参考訳（メタデータ） (2022-11-21T14:36:36Z)
Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文参考訳（メタデータ） (2022-03-18T21:13:56Z)
Object Pursuit: Building a Space of Objects via Discriminative Weight Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文参考訳（メタデータ） (2021-12-15T08:25:30Z)
Object-Centric Representation Learning with Generative Spatial-Temporal Factorization [5.403549896734018]
DyMON(Dynamics-Aware Multi-Object Network)は,動的シーンへの多視点オブジェクト中心表現学習の範囲を広げる手法である。そこで我々は,DyMONが観測者の動きとシーンオブジェクトの運動の絡み合った影響を,一連の観測結果から分解することを学習していることを示す。また,要因化されたシーン表現は,空間と時間で独立して単一のオブジェクトを問合せできることを示す。
論文参考訳（メタデータ） (2021-11-09T20:04:16Z)
Visiting the Invisible: Layer-by-Layer Completed Scene Decomposition [57.088328223220934]
既存のシーン理解システムは、主にシーンの可視部分を認識し、現実世界の物理的物体の無傷な外観を無視します。本研究では,ある場面における物体と背景の可視部分と可視部分の両方に取り組む高レベルのシーン理解システムを提案する。
論文参考訳（メタデータ） (2021-04-12T11:37:23Z)
ROOTS: Object-Centric Representation and Rendering of 3D Scenes [28.24758046060324]
人間の知能の重要な能力は、部分的なシーンの観察から個々の3Dオブジェクトのモデルを構築することである。最近の研究は、オブジェクト中心の生成を実現するが、表現を推測する能力がない。本稿では,モジュール型および構成型3Dオブジェクトモデル構築学習のための確率論的生成モデルを提案する。
論文参考訳（メタデータ） (2020-06-11T00:42:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。