論文の概要: Leveraging Image Augmentation for Object Manipulation: Towards
Interpretable Controllability in Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2310.08929v3
- Date: Thu, 29 Feb 2024 11:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 18:33:32.484953
- Title: Leveraging Image Augmentation for Object Manipulation: Towards
Interpretable Controllability in Object-Centric Learning
- Title(参考訳): 物体操作のための画像強化の活用:物体中心学習における解釈可能な制御性を目指して
- Authors: Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho-Jin Choi,
Seon Joo Kim
- Abstract要約: Slot Attention with Image Augmentation (SlotAug) を導入し、自己教師型でスロット上で解釈可能な制御性を学ぶ可能性を探る。
また、制御可能なスロットの持続可能性の概念を、2つのサブメソッドを持つスロット上で反復的かつ可逆的な制御を導入することにより考案する。
- 参考スコア(独自算出の注目度): 25.501640502603237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The binding problem in artificial neural networks is actively explored with
the goal of achieving human-level recognition skills through the comprehension
of the world in terms of symbol-like entities. Especially in the field of
computer vision, object-centric learning (OCL) is extensively researched to
better understand complex scenes by acquiring object representations or slots.
While recent studies in OCL have made strides with complex images or videos,
the interpretability and interactivity over object representation remain
largely uncharted, still holding promise in the field of OCL. In this paper, we
introduce a novel method, Slot Attention with Image Augmentation (SlotAug), to
explore the possibility of learning interpretable controllability over slots in
a self-supervised manner by utilizing an image augmentation strategy. We also
devise the concept of sustainability in controllable slots by introducing
iterative and reversible controls over slots with two proposed submethods:
Auxiliary Identity Manipulation and Slot Consistency Loss. Extensive empirical
studies and theoretical validation confirm the effectiveness of our approach,
offering a novel capability for interpretable and sustainable control of object
representations.
- Abstract(参考訳): 人工ニューラルネットワークにおける結合問題は,シンボル的実体の観点から世界の理解を通じて人間レベルの認識能力を達成することを目的として,積極的に研究されている。
特にコンピュータビジョンの分野では、オブジェクト中心学習(OCL)は、オブジェクト表現やスロットを取得することで複雑なシーンをよりよく理解するために広く研究されている。
OCLの最近の研究は複雑な画像やビデオで進歩してきたが、オブジェクト表現に対する解釈可能性と相互作用性は、OCLの分野ではまだ約束を保っている。
本稿では,画像拡張戦略を利用して,スロット上での解釈可能な制御性学習の可能性を検討するために,画像拡張によるスロット注意(Slot Attention with Image Aug)を提案する。
また,スロットに対して反復的かつ可逆的な制御を導入することで,制御可能なスロットにおける持続可能性の概念を考案する。
広範な実証研究と理論的検証により,提案手法の有効性を確認し,オブジェクト表現の解釈可能かつ持続可能な制御を可能にする。
関連論文リスト
- Goal Space Abstraction in Hierarchical Reinforcement Learning via
Set-Based Reachability Analysis [0.5409704301731713]
本稿では,目標表現と階層的ポリシの両方を同時に学習するFeudal HRLアルゴリズムを提案する。
複雑なナビゲーションタスクに対する我々のアプローチを評価し、学習された表現が解釈可能で、転送可能であり、データ効率のよい学習結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-09-14T12:39:26Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Unsupervised Discriminative Embedding for Sub-Action Learning in Complex
Activities [54.615003524001686]
本稿では,複雑な活動における教師なしサブアクション学習の新たなアプローチを提案する。
提案手法は,視覚表現と時間表現の両方を,サブアクションを識別的に学習する潜在空間にマッピングする。
視覚-時空間埋め込みと判別的潜在概念の組み合わせにより,教師なし設定でロバストな動作表現を学習できることを示す。
論文 参考訳(メタデータ) (2021-04-30T20:07:27Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Learning from Extrinsic and Intrinsic Supervisions for Domain
Generalization [95.73898853032865]
ドメイン間を同時に一般化する方法を学ぶための新しいドメイン一般化フレームワークを提案する。
提案手法の有効性を2つの標準オブジェクト認識ベンチマークで示す。
論文 参考訳(メタデータ) (2020-07-18T03:12:24Z) - Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文 参考訳(メタデータ) (2020-06-26T15:31:57Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。