論文の概要: Abstract Visual Reasoning with Tangram Shapes
- arxiv url: http://arxiv.org/abs/2211.16492v1
- Date: Tue, 29 Nov 2022 18:57:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:36:08.139289
- Title: Abstract Visual Reasoning with Tangram Shapes
- Title(参考訳): タングラム形状を用いた抽象的ビジュアル推論
- Authors: Anya Ji and Noriyuki Kojima and Noah Rush and Alane Suhr and Wai Keen
Vong and Robert D. Hawkins and Yoav Artzi
- Abstract要約: KiloGramは人や機械の抽象的な視覚的推論を研究するためのリソースである。
視覚的にも言語的にも豊かであり、全体形の記述を超えてセグメンテーションマップや部分ラベルを含む。
このリソースを用いて、最近のマルチモーダルモデルの抽象的な視覚的推論能力を評価する。
- 参考スコア(独自算出の注目度): 16.51170712669011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KiloGram, a resource for studying abstract visual reasoning in
humans and machines. Drawing on the history of tangram puzzles as stimuli in
cognitive science, we build a richly annotated dataset that, with >1k distinct
stimuli, is orders of magnitude larger and more diverse than prior resources.
It is both visually and linguistically richer, moving beyond whole shape
descriptions to include segmentation maps and part labels. We use this resource
to evaluate the abstract visual reasoning capacities of recent multi-modal
models. We observe that pre-trained weights demonstrate limited abstract
reasoning, which dramatically improves with fine-tuning. We also observe that
explicitly describing parts aids abstract reasoning for both humans and models,
especially when jointly encoding the linguistic and visual inputs. KiloGram is
available at https://lil.nlp.cornell.edu/kilogram .
- Abstract(参考訳): 我々は,人間と機械の抽象的視覚的推論を研究するための資源であるkilogramを紹介する。
認知科学における刺激としてのタングラムパズルの歴史を考察し、1k以上の異なる刺激を持つ、前の資源よりも桁違いに大きく、多様である、豊富な注釈付きデータセットを構築した。
視覚的にも言語的にも豊かであり、全体形の記述を超えてセグメンテーションマップや部分ラベルを含む。
このリソースを用いて,最近のマルチモーダルモデルの抽象的視覚推論能力を評価する。
事前学習した重みは抽象的推論に制限があり、微調整により劇的に改善する。
また,人間とモデル,特に言語と視覚のインプットを共同でエンコードする場合,明示的な記述が抽象的推論の助けとなることも観察した。
KiloGramはhttps://lil.nlp.cornell.edu/kilogramで入手できる。
関連論文リスト
- What Makes a Maze Look Like a Maze? [92.80800000328277]
本稿では,Deep Grounding(DSG)という,視覚的抽象化の明示的な構造化表現を活用してグラウンド化と推論を行うフレームワークを紹介する。
DSGの中核はスキーマ-依存性グラフによる抽象概念の記述で、より原始的なシンボルに分解される。
DSGは視覚言語モデルの抽象的視覚的推論性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-09-12T16:41:47Z) - Neural Causal Abstractions [63.21695740637627]
我々は、変数とそのドメインをクラスタリングすることで、因果抽象化の新しいファミリーを開発する。
本稿では,ニューラルネットワークモデルを用いて,そのような抽象化が現実的に学習可能であることを示す。
本実験は、画像データを含む高次元設定に因果推論をスケールする方法を記述し、その理論を支持する。
論文 参考訳(メタデータ) (2024-01-05T02:00:27Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Discrete and continuous representations and processing in deep learning:
Looking forward [18.28761409764605]
離散的かつ連続的な表現とそれらの処理を組み合わせることは、汎用的なインテリジェンスを示すシステムを構築する上で不可欠である、と我々は主張する。
両タイプの表現の利点を組み合わせるために、離散要素を含めることで、現在のニューラルネットワークを改善するいくつかの方法を提案し、議論する。
論文 参考訳(メタデータ) (2022-01-04T16:30:18Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Natural Language Rationales with Full-Stack Visual Reasoning: From
Pixels to Semantic Frames to Commonsense Graphs [106.15931418425906]
本研究は,複数の複雑な視覚的推論課題にまたがる自然言語の有理性の生成に焦点を当てた最初の研究である。
RationaleVT Transformerは、事前学習された言語モデルとオブジェクト認識、接地された視覚的セマンティックフレーム、視覚的コモンセンスグラフを組み合わせることで、自由テキスト論理を生成することを学習する統合モデルである。
実験の結果, 基礎となる事前学習言語モデルは視覚適応の恩恵を受けており, 複雑な視覚的・テキスト的推論タスクに対するモデル解釈可能性の補完として, 自由文合理化が有望な研究方向であることを示唆した。
論文 参考訳(メタデータ) (2020-10-15T05:08:56Z) - Multi-Granularity Modularized Network for Abstract Visual Reasoning [15.956555435408557]
我々は、認知的推論を測定するために設計されたRaven Progressive Matrices Testに焦点を当てる。
認知研究から着想を得たMMON(Multi-Granularity Modularized Network)を提案する。
論文 参考訳(メタデータ) (2020-07-09T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。