Fugu-MT 論文翻訳(概要): Leveraging Image Augmentation for Object Manipulation: Towards Interpretable Controllability in Object-Centric Learning

論文の概要: Leveraging Image Augmentation for Object Manipulation: Towards Interpretable Controllability in Object-Centric Learning

arxiv url: http://arxiv.org/abs/2310.08929v3
Date: Thu, 29 Feb 2024 11:23:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 18:33:32.484953
Title: Leveraging Image Augmentation for Object Manipulation: Towards Interpretable Controllability in Object-Centric Learning
Title（参考訳）: 物体操作のための画像強化の活用:物体中心学習における解釈可能な制御性を目指して
Authors: Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho-Jin Choi, Seon Joo Kim
Abstract要約: Slot Attention with Image Augmentation (SlotAug) を導入し、自己教師型でスロット上で解釈可能な制御性を学ぶ可能性を探る。また、制御可能なスロットの持続可能性の概念を、2つのサブメソッドを持つスロット上で反復的かつ可逆的な制御を導入することにより考案する。
参考スコア（独自算出の注目度）: 25.501640502603237
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The binding problem in artificial neural networks is actively explored with the goal of achieving human-level recognition skills through the comprehension of the world in terms of symbol-like entities. Especially in the field of computer vision, object-centric learning (OCL) is extensively researched to better understand complex scenes by acquiring object representations or slots. While recent studies in OCL have made strides with complex images or videos, the interpretability and interactivity over object representation remain largely uncharted, still holding promise in the field of OCL. In this paper, we introduce a novel method, Slot Attention with Image Augmentation (SlotAug), to explore the possibility of learning interpretable controllability over slots in a self-supervised manner by utilizing an image augmentation strategy. We also devise the concept of sustainability in controllable slots by introducing iterative and reversible controls over slots with two proposed submethods: Auxiliary Identity Manipulation and Slot Consistency Loss. Extensive empirical studies and theoretical validation confirm the effectiveness of our approach, offering a novel capability for interpretable and sustainable control of object representations.
Abstract（参考訳）: 人工ニューラルネットワークにおける結合問題は,シンボル的実体の観点から世界の理解を通じて人間レベルの認識能力を達成することを目的として,積極的に研究されている。特にコンピュータビジョンの分野では、オブジェクト中心学習(OCL)は、オブジェクト表現やスロットを取得することで複雑なシーンをよりよく理解するために広く研究されている。 OCLの最近の研究は複雑な画像やビデオで進歩してきたが、オブジェクト表現に対する解釈可能性と相互作用性は、OCLの分野ではまだ約束を保っている。本稿では,画像拡張戦略を利用して,スロット上での解釈可能な制御性学習の可能性を検討するために,画像拡張によるスロット注意(Slot Attention with Image Aug)を提案する。また,スロットに対して反復的かつ可逆的な制御を導入することで,制御可能なスロットにおける持続可能性の概念を考案する。広範な実証研究と理論的検証により,提案手法の有効性を確認し,オブジェクト表現の解釈可能かつ持続可能な制御を可能にする。

関連論文リスト

Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning [2.713322720372114]
説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を正確に表現するために,正確な注意マスクを生成するための解釈可能な特徴外的アーキテクチャを提案する。得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
論文参考訳（メタデータ） (2025-04-14T10:18:34Z)
From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文参考訳（メタデータ） (2025-02-09T10:30:54Z)
Goal Space Abstraction in Hierarchical Reinforcement Learning via Set-Based Reachability Analysis [0.5409704301731713]
本稿では,目標表現と階層的ポリシの両方を同時に学習するFeudal HRLアルゴリズムを提案する。複雑なナビゲーションタスクに対する我々のアプローチを評価し、学習された表現が解釈可能で、転送可能であり、データ効率のよい学習結果をもたらすことを示す。
論文参考訳（メタデータ） (2023-09-14T12:39:26Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Object Pursuit: Building a Space of Objects via Discriminative Weight Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文参考訳（メタデータ） (2021-12-15T08:25:30Z)
Unsupervised Discriminative Embedding for Sub-Action Learning in Complex Activities [54.615003524001686]
本稿では,複雑な活動における教師なしサブアクション学習の新たなアプローチを提案する。提案手法は,視覚表現と時間表現の両方を,サブアクションを識別的に学習する潜在空間にマッピングする。視覚-時空間埋め込みと判別的潜在概念の組み合わせにより,教師なし設定でロバストな動作表現を学習できることを示す。
論文参考訳（メタデータ） (2021-04-30T20:07:27Z)
Heterogeneous Contrastive Learning: Encoding Spatial Information for Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文参考訳（メタデータ） (2020-11-19T16:26:25Z)
Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。そして、理論的に学習された潜在表現の多元性を証明する。
論文参考訳（メタデータ） (2020-11-12T02:29:29Z)
Learning from Extrinsic and Intrinsic Supervisions for Domain Generalization [95.73898853032865]
ドメイン間を同時に一般化する方法を学ぶための新しいドメイン一般化フレームワークを提案する。提案手法の有効性を2つの標準オブジェクト認識ベンチマークで示す。
論文参考訳（メタデータ） (2020-07-18T03:12:24Z)
Object-Centric Learning with Slot Attention [43.684193749891506]
我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。 Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。 Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
論文参考訳（メタデータ） (2020-06-26T15:31:57Z)
Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文参考訳（メタデータ） (2020-06-10T00:21:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。