論文の概要: Reasoning-Enhanced Object-Centric Learning for Videos
- arxiv url: http://arxiv.org/abs/2403.15245v1
- Date: Fri, 22 Mar 2024 14:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:09:34.187067
- Title: Reasoning-Enhanced Object-Centric Learning for Videos
- Title(参考訳): ビデオのための推論強化型オブジェクト中心学習
- Authors: Jian Li, Pu Ren, Yang Liu, Hao Sun,
- Abstract要約: 複雑なシーンにおけるモデルの知覚能力を高めるため,Slot ベースの Memory buffer (STATM) を用いた Time-Space Transformer を開発した。
実験の結果,STATMはスロットベースビデオモデルのオブジェクト中心学習能力を著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 15.554898985821302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric learning aims to break down complex visual scenes into more manageable object representations, enhancing the understanding and reasoning abilities of machine learning systems toward the physical world. Recently, slot-based video models have demonstrated remarkable proficiency in segmenting and tracking objects, but they overlook the importance of the effective reasoning module. In the real world, reasoning and predictive abilities play a crucial role in human perception and object tracking; in particular, these abilities are closely related to human intuitive physics. Inspired by this, we designed a novel reasoning module called the Slot-based Time-Space Transformer with Memory buffer (STATM) to enhance the model's perception ability in complex scenes. The memory buffer primarily serves as storage for slot information from upstream modules, the Slot-based Time-Space Transformer makes predictions through slot-based spatiotemporal attention computations and fusion. Our experiment results on various datasets show that STATM can significantly enhance object-centric learning capabilities of slot-based video models.
- Abstract(参考訳): オブジェクト中心学習は、複雑な視覚シーンをより管理可能なオブジェクト表現に分解し、物理的な世界に向けて機械学習システムの理解と推論能力を強化することを目的としている。
近年,スロットベースビデオモデルでは,オブジェクトのセグメンテーションや追跡に顕著な習熟度が示されているが,効果的な推論モジュールの重要性は無視されている。
現実世界では、推論と予測能力は人間の知覚や物体追跡において重要な役割を担っている。
そこで我々は,Slotベースの Time-Space Transformer with Memory buffer (STATM) と呼ばれる新しい推論モジュールを設計し,複雑なシーンにおけるモデルの知覚能力を向上した。
メモリバッファは、主に上流モジュールからのスロット情報のストレージとして機能し、スロットベースの時空間変換器はスロットベースの時空間注意計算と融合によって予測を行う。
実験の結果,STATMはスロットベースビデオモデルのオブジェクト中心学習能力を著しく向上させることができることがわかった。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - SlotGNN: Unsupervised Discovery of Multi-Object Representations and
Visual Dynamics [15.705023986053575]
本稿では,教師なし手法を用いて視覚データから多目的ダイナミクスを学習するための新しいフレームワークを提案する。
2つの新しいアーキテクチャ: RGBイメージからオブジェクト表現を発見するSlotTransportと、RGBイメージとロボットインタラクションからの集合的ダイナミクスを予測するSlotGNNである。
最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスをしっかりと予測する。
論文 参考訳(メタデータ) (2023-10-06T22:37:34Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Solving Reasoning Tasks with a Slot Transformer [7.966351917016229]
本稿では、スロットアテンション、トランスフォーマー、およびビデオシーンデータに対する反復的変動推論を利用して表現を推論するアーキテクチャであるSlot Transformerを提案する。
アーキテクチャの主要なコンポーネントの有効性,モデルの表現能力,不完全な入力から予測できる能力について評価する。
論文 参考訳(メタデータ) (2022-10-20T16:40:30Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Entropy-driven Unsupervised Keypoint Representation Learning in Videos [7.940371647421243]
本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
論文 参考訳(メタデータ) (2022-09-30T12:03:52Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。