論文の概要: Object Files and Schemata: Factorizing Declarative and Procedural
Knowledge in Dynamical Systems
- arxiv url: http://arxiv.org/abs/2006.16225v5
- Date: Fri, 13 Nov 2020 01:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:55:26.540946
- Title: Object Files and Schemata: Factorizing Declarative and Procedural
Knowledge in Dynamical Systems
- Title(参考訳): オブジェクトファイルとスキーマ:動的システムにおける宣言的および手続き的知識の分解
- Authors: Anirudh Goyal, Alex Lamb, Phanideep Gampa, Philippe Beaudoin, Sergey
Levine, Charles Blundell, Yoshua Bengio, Michael Mozer
- Abstract要約: モノリシックな隠蔽状態を持つブラックボックスモデルは、手続き的知識を一貫して均一に適用できないことが多い。
宣言的および手続き的知識を分解するアーキテクチャを通じてこの問題に対処する。
- 参考スコア(独自算出の注目度): 135.10772866688404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling a structured, dynamic environment like a video game requires keeping
track of the objects and their states declarative knowledge) as well as
predicting how objects behave (procedural knowledge). Black-box models with a
monolithic hidden state often fail to apply procedural knowledge consistently
and uniformly, i.e., they lack systematicity. For example, in a video game,
correct prediction of one enemy's trajectory does not ensure correct prediction
of another's. We address this issue via an architecture that factorizes
declarative and procedural knowledge and that imposes modularity within each
form of knowledge. The architecture consists of active modules called object
files that maintain the state of a single object and invoke passive external
knowledge sources called schemata that prescribe state updates. To use a video
game as an illustration, two enemies of the same type will share schemata but
will have separate object files to encode their distinct state (e.g., health,
position). We propose to use attention to determine which object files to
update, the selection of schemata, and the propagation of information between
object files. The resulting architecture is a drop-in replacement conforming to
the same input-output interface as normal recurrent networks (e.g., LSTM, GRU)
yet achieves substantially better generalization on environments that have
multiple object tokens of the same type, including a challenging intuitive
physics benchmark.
- Abstract(参考訳): ビデオゲームのような構造化された動的環境をモデル化するには、オブジェクトとその宣言的知識の追跡と、オブジェクトの振舞い(手続き的知識)の予測が必要である。
モノリシックな隠れ状態を持つブラックボックスモデルは、手続き的知識を一貫して均一に適用できないことが多い。
例えば、ビデオゲームでは、敵の軌道の正確な予測は、相手の軌道の正確な予測を保証しない。
我々は、宣言的および手続き的知識を分解し、各形態の知識にモジュラリティを課すアーキテクチャを通じてこの問題に対処する。
アーキテクチャは、オブジェクトファイルと呼ばれるアクティブなモジュールで構成され、単一のオブジェクトの状態を保持し、状態更新を規定するschemaと呼ばれるパッシブな外部知識ソースを呼び出す。
ビデオゲームをイラストとして使用するには、同じタイプの2つの敵がスキーマを共有するが、それぞれ異なる状態(例えば健康、位置)をエンコードするオブジェクトファイルを持っている。
我々は,どのオブジェクトファイルを更新するか,スキーマの選択,オブジェクトファイル間の情報伝達に注意を払うことを提案する。
結果として得られたアーキテクチャは、通常のリカレントネットワーク(lstm、grgなど)と同じ入出力インターフェースに準拠したドロップイン置換だが、同じタイプの複数のオブジェクトトークンを持つ環境において、より優れた一般化を実現している。
関連論文リスト
- Do Pre-trained Vision-Language Models Encode Object States? [13.4206464539947]
視覚言語モデル(VLM)がWebスケールデータにオブジェクト状態をエンコードするかどうかを検討する。
コントラストおよび生成目的を訓練したモデルを含む,9つのオープンソースVLMを評価した。
オブジェクト状態のエンコードを改善するための3つの領域を同定する。
論文 参考訳(メタデータ) (2024-09-16T17:22:18Z) - Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes [0.6577148087211809]
我々は、任意の視点から記録されたオブジェクト画像の状態をキャプチャし、バリエーションを示す新しいデータセット、ObjectsWithStateChangeを提案する。
このような研究の目的は、状態変化に不変なオブジェクト埋め込みを生成することができるモデルをトレーニングすることである。
本稿では,各エポック後に学習した埋め込み空間における類似性関係を利用して学習過程を指導するカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-09T17:17:48Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Tuning-less Object Naming with a Foundation Model [0.0]
我々は、一度も見つからない名前付きエンティティの集合を学習できるリアルタイムオブジェクト命名システムを実装した。
私たちの貢献は、トランスフォーマーから知られている関連メカニズムを注目することです。
結果として、システムはワンショットで動作し、異なる内容で命名されたオブジェクトを正しく名付けることができる。
論文 参考訳(メタデータ) (2023-11-03T09:11:49Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。