論文の概要: Reasoning-Enhanced Object-Centric Learning for Videos
- arxiv url: http://arxiv.org/abs/2403.15245v1
- Date: Fri, 22 Mar 2024 14:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-25 17:09:34.187067
- Title: Reasoning-Enhanced Object-Centric Learning for Videos
- Title(参考訳): ビデオのための推論強化型オブジェクト中心学習
- Authors: Jian Li, Pu Ren, Yang Liu, Hao Sun,
- Abstract要約: 複雑なシーンにおけるモデルの知覚能力を高めるため,Slot ベースの Memory buffer (STATM) を用いた Time-Space Transformer を開発した。
実験の結果,STATMはスロットベースビデオモデルのオブジェクト中心学習能力を著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 15.554898985821302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-centric learning aims to break down complex visual scenes into more manageable object representations, enhancing the understanding and reasoning abilities of machine learning systems toward the physical world. Recently, slot-based video models have demonstrated remarkable proficiency in segmenting and tracking objects, but they overlook the importance of the effective reasoning module. In the real world, reasoning and predictive abilities play a crucial role in human perception and object tracking; in particular, these abilities are closely related to human intuitive physics. Inspired by this, we designed a novel reasoning module called the Slot-based Time-Space Transformer with Memory buffer (STATM) to enhance the model's perception ability in complex scenes. The memory buffer primarily serves as storage for slot information from upstream modules, the Slot-based Time-Space Transformer makes predictions through slot-based spatiotemporal attention computations and fusion. Our experiment results on various datasets show that STATM can significantly enhance object-centric learning capabilities of slot-based video models.
- Abstract(参考訳): オブジェクト中心学習は、複雑な視覚シーンをより管理可能なオブジェクト表現に分解し、物理的な世界に向けて機械学習システムの理解と推論能力を強化することを目的としている。
近年,スロットベースビデオモデルでは,オブジェクトのセグメンテーションや追跡に顕著な習熟度が示されているが,効果的な推論モジュールの重要性は無視されている。
現実世界では、推論と予測能力は人間の知覚や物体追跡において重要な役割を担っている。
そこで我々は,Slotベースの Time-Space Transformer with Memory buffer (STATM) と呼ばれる新しい推論モジュールを設計し,複雑なシーンにおけるモデルの知覚能力を向上した。
メモリバッファは、主に上流モジュールからのスロット情報のストレージとして機能し、スロットベースの時空間変換器はスロットベースの時空間注意計算と融合によって予測を行う。
実験の結果,STATMはスロットベースビデオモデルのオブジェクト中心学習能力を著しく向上させることができることがわかった。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Spectral-Enhanced Transformers: Leveraging Large-Scale Pretrained Models for Hyperspectral Object Tracking [35.34526230299484]
本稿では,超スペクトル物体追跡のためのトランスフォーマーベース基礎モデルに適応する効果的な手法を提案する。
本稿では,任意の変圧器ベースのバックボーンに拡張可能な適応型,学習可能な空間分光トークン融合モジュールを提案する。
論文 参考訳(メタデータ) (2025-02-26T01:46:21Z) - SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - SlotGNN: Unsupervised Discovery of Multi-Object Representations and
Visual Dynamics [15.705023986053575]
本稿では,教師なし手法を用いて視覚データから多目的ダイナミクスを学習するための新しいフレームワークを提案する。
2つの新しいアーキテクチャ: RGBイメージからオブジェクト表現を発見するSlotTransportと、RGBイメージとロボットインタラクションからの集合的ダイナミクスを予測するSlotGNNである。
最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスをしっかりと予測する。
論文 参考訳(メタデータ) (2023-10-06T22:37:34Z) - How Physics and Background Attributes Impact Video Transformers in Robotic Manipulation: A Case Study on Planar Pushing [8.435401907462245]
本稿では,物理特性と背景特性が映像変換器の性能に与える影響について検討する。
提案するCloudGripper-Push-1Kは,大規模なビジョンベースロボットのプッシュデータセットである。
また,ビデオ・オクルージョン・トランスフォーマ (VOT) を提案する。
論文 参考訳(メタデータ) (2023-10-03T13:35:49Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Solving Reasoning Tasks with a Slot Transformer [7.966351917016229]
本稿では、スロットアテンション、トランスフォーマー、およびビデオシーンデータに対する反復的変動推論を利用して表現を推論するアーキテクチャであるSlot Transformerを提案する。
アーキテクチャの主要なコンポーネントの有効性,モデルの表現能力,不完全な入力から予測できる能力について評価する。
論文 参考訳(メタデータ) (2022-10-20T16:40:30Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Entropy-driven Unsupervised Keypoint Representation Learning in Videos [7.940371647421243]
本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
論文 参考訳(メタデータ) (2022-09-30T12:03:52Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。