論文の概要: Compositional Law Parsing with Latent Random Functions
- arxiv url: http://arxiv.org/abs/2209.09115v1
- Date: Thu, 15 Sep 2022 06:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 15:56:59.383531
- Title: Compositional Law Parsing with Latent Random Functions
- Title(参考訳): 潜在ランダム関数を用いた構成法則解析
- Authors: Fan Shi, Bin Li, Xiangyang Xue
- Abstract要約: 合成Law Parsing (CLAP) のための潜時変動モデルを提案する。
CLAPは、シーンの概念を潜伏変数として表現するエンコーディング・デコーディングアーキテクチャを通じて、人間のような構成能力を実現する。
実験の結果,CLAPは複数の視覚的タスクにおいて比較されたベースライン法よりも優れていた。
- 参考スコア(独自算出の注目度): 54.26307134687171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human cognition has compositionality. We understand a scene by decomposing
the scene into different concepts (e.g. shape and position of an object) and
learning the respective laws of these concepts which may be either natural
(e.g. laws of motion) or man-made (e.g. laws of a game). The automatic parsing
of these laws indicates the model's ability to understand the scene, which
makes law parsing play a central role in many visual tasks. In this paper, we
propose a deep latent variable model for Compositional LAw Parsing (CLAP). CLAP
achieves the human-like compositionality ability through an encoding-decoding
architecture to represent concepts in the scene as latent variables, and
further employ concept-specific random functions, instantiated with Neural
Processes, in the latent space to capture the law on each concept. Our
experimental results demonstrate that CLAP outperforms the compared baseline
methods in multiple visual tasks including intuitive physics, abstract visual
reasoning, and scene representation. In addition, CLAP can learn
concept-specific laws in a scene without supervision and one can edit laws
through modifying the corresponding latent random functions, validating its
interpretability and manipulability.
- Abstract(参考訳): 人間の認知には構成性がある。
我々は、シーンを異なる概念(例えば、物体の形や位置)に分解し、自然(例えば、運動の法則)または人工(例えば、ゲームの法則)であるこれらの概念のそれぞれの法則を学ぶことによって、シーンを理解する。
これらの法則の自動解析は、モデルがシーンを理解する能力を示しているため、多くのビジュアルタスクにおいて、ローパースが中心的な役割を果たす。
本稿では,Law Parsing (CLAP) のための潜時変数モデルを提案する。
CLAPは、シーン内の概念を潜時変数として表現するエンコーディング・デコーディングアーキテクチャを通じて人間のような構成能力を実現し、さらに、潜時空間における各概念に関する法則を捉えるために、ニューラルプロセスでインスタンス化された概念固有のランダム関数を用いる。
実験の結果,クラップは,直感的物理,抽象的視覚推論,シーン表現など,複数の視覚課題において比較基準法よりも優れていた。
さらに、CLAPは、監督のないシーンで概念固有の法則を学習でき、対応する潜在乱数関数を変更して、解釈可能性と操作性を検証することで法を編集することができる。
関連論文リスト
- A Complexity-Based Theory of Compositionality [53.025566128892066]
AIでは、構成表現は配布外一般化の強力な形式を可能にすることができる。
ここでは、構成性に関する直観を考慮し、拡張する構成性の公式な定義を提案する。
この定義は概念的には単純で量的であり、アルゴリズム情報理論に基礎を置いており、あらゆる表現に適用できる。
論文 参考訳(メタデータ) (2024-10-18T18:37:27Z) - Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models [60.80960965051388]
形容詞と動詞は名詞で絡み合っている(目的語)
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - Intrinsic Physical Concepts Discovery with Object-Centric Predictive
Models [86.25460882547581]
PHYsical Concepts Inference NEtwork (PHYCINE) は、異なる抽象レベルの物理概念を監督なしで推論するシステムである。
物理概念変数を含むオブジェクト表現は因果推論タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:52:21Z) - Succinct Representations for Concepts [12.134564449202708]
chatGPTのようなファンデーションモデルは、様々なタスクで顕著なパフォーマンスを示している。
しかし、多くの疑問に対して、彼らは正確なように見える誤った答えを生み出すかもしれない。
本稿では,圏論に基づく概念の簡潔な表現について述べる。
論文 参考訳(メタデータ) (2023-03-01T12:11:23Z) - Prediction of Scene Plausibility [11.641785968519114]
可塑性は、物理的性質の項と、機能的および典型的な配置の項の両方で定義することができる。
合成画像のデータセットを構築し, 可視・可視の両方のシーンを合成する。
妥当性を認識し理解するタスクにおいて,様々な視覚モデルの成功を検証した。
論文 参考訳(メタデータ) (2022-12-02T22:22:16Z) - Contextualized Scene Imagination for Generative Commonsense Reasoning [35.03682416576795]
生成的コモンセンス推論スキルは、最先端のテキスト生成方法に欠けている。
本稿では,リレーショナルシーン知識グラフの想像を学習するI/V手法を提案する。
実験は、コンセプト・ツー・センスとコンセプト・ツー・ストーリー生成タスクにおいて、言語モデルを改善するためのI&Vの有効性を示す。
論文 参考訳(メタデータ) (2021-12-12T20:38:08Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。