論文の概要: Hybrid Primal Sketch: Combining Analogy, Qualitative Representations, and Computer Vision for Scene Understanding
- arxiv url: http://arxiv.org/abs/2407.04859v1
- Date: Fri, 5 Jul 2024 20:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 22:16:57.729633
- Title: Hybrid Primal Sketch: Combining Analogy, Qualitative Representations, and Computer Vision for Scene Understanding
- Title(参考訳): ハイブリッドプリマルスケッチ:シーン理解のためのアナロジー、質的表現、コンピュータビジョンを組み合わせる
- Authors: Kenneth D. Forbus, Kezhen Chen, Wangcheng Xu, Madeline Usher,
- Abstract要約: われわれはMarrのPrimal Sketchにインスパイアされた新しいフレームワークを開発した。
Hybrid Primal Sketchは、コンピュータビジョンコンポーネントをアンサンブルに結合してスケッチのようなエンティティを生成する。
本稿では、我々の理論的枠組みを概説し、いくつかの実験を要約し、図理解に関する新たな実験の概要を述べる。
- 参考スコア(独自算出の注目度): 7.687215328455751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the purposes of perception is to bridge between sensors and conceptual understanding. Marr's Primal Sketch combined initial edge-finding with multiple downstream processes to capture aspects of visual perception such as grouping and stereopsis. Given the progress made in multiple areas of AI since then, we have developed a new framework inspired by Marr's work, the Hybrid Primal Sketch, which combines computer vision components into an ensemble to produce sketch-like entities which are then further processed by CogSketch, our model of high-level human vision, to produce both more detailed shape representations and scene representations which can be used for data-efficient learning via analogical generalization. This paper describes our theoretical framework, summarizes several previous experiments, and outlines a new experiment in progress on diagram understanding.
- Abstract(参考訳): 知覚の1つの目的は、センサーと概念的理解の間の橋渡しである。
Marr's Primal Sketchは、初期のエッジフィニングと複数の下流プロセスを組み合わせて、グループ化やステレオプシスのような視覚的知覚の側面を捉えた。
このフレームワークは、コンピュータビジョンコンポーネントをアンサンブルに結合してスケッチのようなエンティティを生成し、それを高レベルの人間の視覚モデルであるCogSketchによってさらに処理することで、アナログの一般化によるデータ効率の学習に使用できる、より詳細な形状表現とシーン表現の両方を生成する。
本稿では,我々の理論的枠組みを概説し,いくつかの実験を要約し,図理解に関する新たな実験を概説する。
関連論文リスト
- For a semiotic AI: Bridging computer vision and visual semiotics for computational observation of large scale facial image archives [3.418398936676879]
この研究は、ソーシャルメディアプラットフォームにおける画像の社会的・文化的影響を大規模に調査するためのフレームワークであるFRESCOを提示する。
FRESCOは、最新のコンピュータビジョン技術を用いて、画像を数値変数と分類変数に分解する。
このフレームワークは、線や色のような基本的な視覚的特徴を含むプラスティックレベル、特定の実体や概念を表す図形レベル、特にオブザーバーとオブザーバーの視点を構築することに焦点を当てた啓示レベルという3つのレベルにわたって画像を分析する。
論文 参考訳(メタデータ) (2024-07-03T16:57:38Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - AIGenC: An AI generalisation model via creativity [1.933681537640272]
本稿では,創造性に関する認知理論に触発された計算モデル(AIGenC)を紹介する。
人工エージェントが変換可能な表現を学習、使用、生成するために必要なコンポーネントを配置する。
本稿では, 人工エージェントの配当効率を向上するモデルの有効性について論じる。
論文 参考訳(メタデータ) (2022-05-19T17:43:31Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z) - Interactive Disentanglement: Learning Concepts by Interacting with their
Prototype Representations [15.284688801788912]
本稿では,ニューラル概念学習者の潜伏空間の理解と改訂のためのプロトタイプ表現の利点を示す。
この目的のために,対話型概念スワッピングネットワーク(iCSN)を導入する。
iCSNは、ペア画像の潜在表現を交換することで、概念情報を特定のプロトタイプスロットにバインドすることを学ぶ。
論文 参考訳(メタデータ) (2021-12-04T09:25:40Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - Visually Grounded Concept Composition [31.981204314287282]
我々はこれらを画像に合わせることによって、原始概念と全構成概念の両方の基礎を学ぶ。
そこで本研究では,テキストと画像のマッチング精度を指標として,合成学習がより堅牢なグラウンド化結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-09-29T00:38:58Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - SketchEmbedNet: Learning Novel Concepts by Imitating Drawings [125.45799722437478]
モデルを用いて画像のスケッチを作成することによって学習した画像表現の特性について検討する。
この生成型クラスに依存しないモデルでは,新規な例,クラス,さらには新規なデータセットからの画像の情報埋め込みが,数ショットで生成されることが示されている。
論文 参考訳(メタデータ) (2020-08-27T16:43:28Z) - Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and
Novel-View Synthesis [39.53519330457627]
本稿では,複数ショット認識と新規ビュー合成という新たな課題を提案する。
我々は、オブジェクト分類器を同時に学習し、新しい視点からそのタイプのオブジェクトの画像を生成することを目的としている。
生成モデルと識別モデルとの相互作用と協調に焦点を当てる。
論文 参考訳(メタデータ) (2020-08-16T19:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。