論文の概要: GATSBI: Generative Agent-centric Spatio-temporal Object Interaction
- arxiv url: http://arxiv.org/abs/2104.04275v1
- Date: Fri, 9 Apr 2021 09:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:08:51.346713
- Title: GATSBI: Generative Agent-centric Spatio-temporal Object Interaction
- Title(参考訳): GATSBI:生成エージェント中心の時空間オブジェクト間相互作用
- Authors: Cheol-Hui Min, Jinseok Bae, Junho Lee and Young Min Kim
- Abstract要約: GAT SBIは生観測の系列を構造化表現に変換する生成モデルである。
GAT SBIはシーン分解や映像予測において最先端技術に比べて優れていることを示す。
- 参考スコア(独自算出の注目度): 9.328991021103294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GATSBI, a generative model that can transform a sequence of raw
observations into a structured latent representation that fully captures the
spatio-temporal context of the agent's actions. In vision-based decision-making
scenarios, an agent faces complex high-dimensional observations where multiple
entities interact with each other. The agent requires a good scene
representation of the visual observation that discerns essential components and
consistently propagates along the time horizon. Our method, GATSBI, utilizes
unsupervised object-centric scene representation learning to separate an active
agent, static background, and passive objects. GATSBI then models the
interactions reflecting the causal relationships among decomposed entities and
predicts physically plausible future states. Our model generalizes to a variety
of environments where different types of robots and objects dynamically
interact with each other. We show GATSBI achieves superior performance on scene
decomposition and video prediction compared to its state-of-the-art
counterparts.
- Abstract(参考訳): GATSBIは、生の観察の順序を、エージェントの行動の時空間的文脈を完全に捉えた構造化潜在表現に変換することができる生成モデルである。
視覚に基づく意思決定シナリオでは、エージェントは複数のエンティティが相互に相互作用する複雑な高次元の観察に直面します。
エージェントは、必須成分を識別し、時間軸に沿って一貫して伝播する視覚観察のよいシーン表現を必要とする。
提案手法であるgatsbiは,教師なしのオブジェクト中心のシーン表現学習を用いて,アクティブエージェント,静的背景,受動的オブジェクトを分離する。
GATSBIは、分解された実体間の因果関係を反映した相互作用をモデル化し、物理的に妥当な将来の状態を予測する。
我々のモデルは様々な種類のロボットや物体が動的に相互作用する様々な環境に一般化する。
GATSBIはシーン分解と映像予測において,最先端技術と比較して優れた性能を示す。
関連論文リスト
- Learning Collective Dynamics of Multi-Agent Systems using Event-based Vision [15.26086907502649]
本稿では,マルチエージェントシステムの集合力学を学習し,予測するための視覚に基づく認識という,新しい問題を提案する。
私たちは、フレームやイベントとしてキャプチャされた視覚データから、集合的ダイナミクスを直接予測するディープラーニングモデルに焦点を当てています。
我々は,これらの集合行動を予測する上で,従来のフレームベース手法に対するイベントベース表現の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2024-11-11T14:45:47Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - Object-Centric Scene Representations using Active Inference [4.298360054690217]
シーンとその成分オブジェクトを生の知覚データから表現することは、ロボットが環境と対話できるコア機能である。
本稿では,エージェントがオブジェクトカテゴリを推論できる階層型オブジェクト中心生成モデルを活用する,シーン理解のための新しいアプローチを提案する。
また,アクティブな視覚エージェントの動作を評価するために,対象対象の視点を考慮し,最適な視点を見出す必要がある新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-02-07T06:45:19Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - SIMONe: View-Invariant, Temporally-Abstracted Object Representations via
Unsupervised Video Decomposition [69.90530987240899]
この問題に対して教師なしの変分法を提案する。
我々のモデルは、RGBビデオ入力のみから2組の潜在表現を推論することを学ぶ。
これは、視点に依存しないアロセントリックな方法でオブジェクト属性を表現する。
論文 参考訳(メタデータ) (2021-06-07T17:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。