Fugu-MT 論文翻訳(概要): Efficient Object-centric Representation Learning with Pre-trained Geometric Prior

論文の概要: Efficient Object-centric Representation Learning with Pre-trained Geometric Prior

arxiv url: http://arxiv.org/abs/2412.12331v1
Date: Mon, 16 Dec 2024 20:01:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.445674
Title: Efficient Object-centric Representation Learning with Pre-trained Geometric Prior
Title（参考訳）: 事前学習された幾何学的事前学習による効率的なオブジェクト指向表現学習
Authors: Phúc H. Le Khac, Graham Healy, Alan F. Smeaton,
Abstract要約: 本稿では、幾何学的理解を重視し、事前学習された視覚モデルを利用して物体発見を促進する弱教師付きフレームワークを提案する。本手法では,オブジェクト中心学習に特化して設計された効率的なスロットデコーダを導入し,露骨な深度情報を必要としない多目的シーンの効率的な表現を可能にする。
参考スコア（独自算出の注目度）: 1.9685736810241874
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses key challenges in object-centric representation learning of video. While existing approaches struggle with complex scenes, we propose a novel weakly-supervised framework that emphasises geometric understanding and leverages pre-trained vision models to enhance object discovery. Our method introduces an efficient slot decoder specifically designed for object-centric learning, enabling effective representation of multi-object scenes without requiring explicit depth information. Results on synthetic video benchmarks with increasing complexity in terms of objects and their movement, object occlusion and camera motion demonstrate that our approach achieves comparable performance to supervised methods while maintaining computational efficiency. This advances the field towards more practical applications in complex real-world scenarios.
Abstract（参考訳）: 本稿では,ビデオのオブジェクト中心表現学習における重要な課題に対処する。既存のアプローチは複雑な場面で苦労するが、幾何学的理解を重視し、事前学習された視覚モデルを活用して物体発見を強化する、新しい弱教師付きフレームワークを提案する。本手法では,オブジェクト中心学習に特化して設計された効率的なスロットデコーダを導入し,露骨な深度情報を必要としない多目的シーンの効率的な表現を可能にする。オブジェクトの移動, 物体の閉塞, カメラの動きの複雑さが増大する合成ビデオベンチマークの結果, 計算効率を保ちながら, 本手法が教師付き手法に匹敵する性能を発揮することが示された。これにより、複雑な現実世界のシナリオにおけるより実用的な応用に向けての分野が前進する。

関連論文リスト

Disentangled Object-Centric Image Representation for Robotic Manipulation [6.775909411692767]
本研究では,対象物,障害物,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。提案手法は,多目的環境における視覚的インプットから選択と配置のスキルを習得する上で,最先端のパフォーマンスに繋がることを示す。
論文参考訳（メタデータ） (2025-03-14T16:33:48Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文参考訳（メタデータ） (2024-07-09T13:58:10Z)
Kinematic-aware Prompting for Generalizable Articulated Object Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文参考訳（メタデータ） (2023-11-06T03:26:41Z)
Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文参考訳（メタデータ） (2023-06-03T21:49:06Z)
Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文参考訳（メタデータ） (2023-06-01T12:16:26Z)
Robust and Controllable Object-Centric Learning through Energy-based Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文参考訳（メタデータ） (2022-10-11T15:11:15Z)
Object Pursuit: Building a Space of Objects via Discriminative Weight Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文参考訳（メタデータ） (2021-12-15T08:25:30Z)
Relevance-Guided Modeling of Object Dynamics for Reinforcement Learning [0.0951828574518325]
現在の深層強化学習(RL)アプローチでは、環境に関する最小限の事前知識が組み込まれている。本稿では,最小限およびタスク固有のオブジェクト表現を迅速に決定するために,オブジェクトのダイナミクスと振る舞いを推論するフレームワークを提案する。また、オブジェクト表現と標準RLと計画アルゴリズムを用いて、Atariゲームにおけるこのフレームワークの可能性を強調し、既存の深層RLアルゴリズムよりも劇的に高速に学習する。
論文参考訳（メタデータ） (2020-03-03T08:18:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。