論文の概要: Visual Attention in Imaginative Agents
- arxiv url: http://arxiv.org/abs/2104.00177v1
- Date: Thu, 1 Apr 2021 00:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 06:37:41.046964
- Title: Visual Attention in Imaginative Agents
- Title(参考訳): 想像エージェントの視覚的注意
- Authors: Samrudhdhi B. Rangrej, James J. Clark
- Abstract要約: 我々は、一連の離散固定を通して周囲を知覚する反復エージェントを提示する。
各タイムステップで、エージェントは固定の歴史と一致するさまざまな実行可能なシーンを想像します。
エージェントはさまざまな2Dおよび3Dデータセットでテストされます。
- 参考スコア(独自算出の注目度): 5.203329540700176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a recurrent agent who perceives surroundings through a series of
discrete fixations. At each timestep, the agent imagines a variety of plausible
scenes consistent with the fixation history. The next fixation is planned using
uncertainty in the content of the imagined scenes. As time progresses, the
agent becomes more certain about the content of the surrounding, and the
variety in the imagined scenes reduces. The agent is built using a variational
autoencoder and normalizing flows, and trained in an unsupervised manner on a
proxy task of scene-reconstruction. The latent representations of the imagined
scenes are found to be useful for performing pixel-level and scene-level tasks
by higher-order modules. The agent is tested on various 2D and 3D datasets.
- Abstract(参考訳): 我々は,一連の離散固定を通じて周囲を知覚する反復エージェントを提案する。
それぞれの時間ステップで、エージェントは、固定履歴と一致する様々な妥当なシーンを想像します。
次の固定は、想像上のシーンの内容の不確実性を利用して計画されている。
時間が進むにつれて、エージェントは周囲の内容についてより確実になり、想像されるシーンの多様性は減少する。
エージェントは変分オートエンコーダと正規化フローを使用して構築され、シーン再構成のプロキシタスクで教師なしの方法でトレーニングされる。
想像されたシーンの潜在表現は、高階モジュールによるピクセルレベルおよびシーンレベルタスクの実行に有用である。
エージェントは、様々な2Dおよび3Dデータセットでテストされる。
関連論文リスト
- StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - 3D scene generation from scene graphs and self-attention [51.49886604454926]
本稿では,シーングラフとフロアプランから3次元シーンを合成する条件付き変分オートエンコーダ(cVAE)モデルを提案する。
我々は、シーン内のオブジェクト間の高レベルな関係をキャプチャするために、自己注意層の特性を利用する。
論文 参考訳(メタデータ) (2024-04-02T12:26:17Z) - Neural Scene Chronology [79.51094408119148]
我々は、視点、照明、時間の独立した制御で写真リアルなレンダリングをレンダリングできる、時間変化の3Dモデルを再構築することを目指している。
本研究では,画像ごとの照明を埋め込んだ時空間放射場として,時間的に変化するシーン変化を学習ステップ関数のセットを用いて符号化する。
論文 参考訳(メタデータ) (2023-06-13T17:59:58Z) - CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination [87.4797527628459]
我々はCoSIm(Comonsense Reasoning for Counterfactual Scene Imagination)と呼ばれる新しいタスク/データセットを導入する。
CoSImは、シーン変更の想像力を推論するAIシステムの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2022-07-08T15:28:23Z) - A Dynamic Data Driven Approach for Explainable Scene Understanding [0.0]
シーン理解はコンピュータビジョンの領域において重要なトピックである。
我々は、シーンの活発な説明駆動的理解と分類について考察する。
我々のフレームワークはACUMEN: Active Classification and Understanding Method by Explanation-driven Networksである。
論文 参考訳(メタデータ) (2022-06-18T02:41:51Z) - BlobGAN: Spatially Disentangled Scene Representations [67.60387150586375]
本研究では,シーン生成モデルのための教師なし中間レベル表現を提案する。
この表現は、ピクセル単位でもイメージ単位でもなく、むしろ空間的に、奥行き順に並べられた特徴の「ブロブ」の集合としてモデル化されている。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Continuous Scene Representations for Embodied AI [33.00565252990522]
連続シーン表現 (Continuous Scene Representations, CSR) は、空間内を移動するエンボディエージェントによって構築されたシーン表現である。
私たちの重要な洞察は、オブジェクト間のペアワイズ関係を潜在空間に埋め込むことです。
CSRは、エージェントがシーン内を移動するときにオブジェクトを追跡し、それに従って表現を更新し、部屋の構成の変更を検出する。
論文 参考訳(メタデータ) (2022-03-31T17:55:33Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - Trajectory Prediction for Autonomous Driving based on Multi-Head
Attention with Joint Agent-Map Representation [8.203012391711932]
エージェントの将来の軌跡は、エージェントの位置と過去の動きと静的なシーン構造という2つの重要な手がかりを用いて推測することができる。
本稿では,静的シーンと周辺エージェントの同時表現を考慮したマルチヘッドアテンション手法を提案する。
提案モデルでは,nuScenes 予測ベンチマークの結果が得られ,シーン構造やエージェント構成に適合した様々な将来の軌跡が生成される。
論文 参考訳(メタデータ) (2020-05-06T00:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。