論文の概要: Learning Abstract Visual Reasoning via Task Decomposition: A Case Study
in Raven Progressive Matrices
- arxiv url: http://arxiv.org/abs/2308.06528v1
- Date: Sat, 12 Aug 2023 11:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:55:02.488588
- Title: Learning Abstract Visual Reasoning via Task Decomposition: A Case Study
in Raven Progressive Matrices
- Title(参考訳): タスク分解による抽象的視覚的推論の学習:レイブン行列を事例として
- Authors: Jakub Kwiatkowski and Krzysztof Krawiec
- Abstract要約: Raven Progressive Matrices(source)では、タスクは、与えられたコンテキストで利用可能な答えの1つを選択することである。
本稿では,変換器の青写真に基づく深層学習アーキテクチャを提案する。
自己教師型トレーニングにおいて,視覚入力をトークンにパースする方法と,入力の一部をマスキングするいくつかの方法を検討する。
- 参考スコア(独自算出の注目度): 0.24475591916185496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the challenges in learning to perform abstract reasoning is that
problems are often posed as monolithic tasks, with no intermediate subgoals. In
Raven Progressive Matrices (RPM), the task is to choose one of the available
answers given a context, where both contexts and answers are composite images
featuring multiple objects in various spatial arrangements. As this high-level
goal is the only guidance available, learning is challenging and most
contemporary solvers tend to be opaque. In this study, we propose a deep
learning architecture based on the transformer blueprint which, rather than
directly making the above choice, predicts the visual properties of individual
objects and their arrangements. The multidimensional predictions obtained in
this way are then directly juxtaposed to choose the answer. We consider a few
ways in which the model parses the visual input into tokens and several regimes
of masking parts of the input in self-supervised training. In experimental
assessment, the models not only outperform state-of-the-art methods but also
provide interesting insights and partial explanations about the inference. The
design of the method also makes it immune to biases that are known to exist in
some RPM benchmarks.
- Abstract(参考訳): 抽象的推論を学習する際の課題の1つは、問題はしばしば中間的なサブゴールを持たないモノリシックなタスクとして表されることである。
Raven Progressive Matrices (RPM) では、コンテキストと回答の両方が様々な空間配置で複数のオブジェクトを特徴とする合成画像である、コンテキストが与えられた解の1つを選択する。
このハイレベルな目標が唯一のガイダンスであるため、学習は困難であり、ほとんどの現代解決者は不透明である傾向がある。
本研究では,上述の選択を直接行うのではなく,個々の物体の視覚特性とその配置を予測するトランスフォーマー・ブループリントに基づくディープラーニング・アーキテクチャを提案する。
この方法で得られる多次元予測は、その解を選ぶために直接的に決定される。
我々は,モデルが視覚入力をトークンに解析するいくつかの方法と,自己教師付きトレーニングで入力の一部をマスキングするいくつかの方法を検討する。
実験的な評価では、モデルは最先端の手法を上回るだけでなく、推論に関する興味深い洞察と部分的な説明を提供する。
この方法の設計は、いくつかのRPMベンチマークに存在することが知られているバイアスに免疫を与える。
関連論文リスト
- Probabilistic Abduction for Visual Abstract Reasoning via Learning Rules
in Vector-symbolic Architectures [22.12114509953737]
抽象推論は人間の知性の基礎であり、それを人工知能(AI)で複製することは、現在進行中の課題である。
本研究では,抽象的推論能力を評価する視覚的テストであるRaven's Progress matrices (RPM) を効率的に解くことに焦点を当てた。
RPMに関連するルール定式化をハードコーディングする代わりに、トレーニングデータに1回だけ通すだけでVSAルール定式化を学習することができる。
論文 参考訳(メタデータ) (2024-01-29T10:17:18Z) - Tackling the Abstraction and Reasoning Corpus (ARC) with Object-centric
Models and the MDL Principle [0.0]
本稿では,人間による自然プログラムに則ったオブジェクト中心モデルを提案する。
我々のモデルは、予測を行うだけでなく、入力/出力ペアに対する共同記述を提供する。
多様なタスクが解決され、学習されたモデルは自然プログラムと類似している。
論文 参考訳(メタデータ) (2023-11-01T14:25:51Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Learning to reason over visual objects [6.835410768769661]
対象物の観点から視覚シーンを処理するための汎用メカニズムが,抽象的な視覚的推論を促進するのにどの程度役立つかを検討する。
我々は、オブジェクト中心処理の帰納バイアスが抽象的な視覚的推論の鍵となることを発見した。
論文 参考訳(メタデータ) (2023-03-03T23:19:42Z) - Deep Non-Monotonic Reasoning for Visual Abstract Reasoning Tasks [3.486683381782259]
本稿では,視覚的抽象的推論課題を解決するための非単調な計算手法を提案する。
このアプローチを使ってディープラーニングモデルを実装し、RavenのProgressive MatricesテストにインスパイアされたデータセットであるRAVENデータセットでそれをテストしました。
論文 参考訳(メタデータ) (2023-02-08T16:35:05Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - Raven's Progressive Matrices Completion with Latent Gaussian Process
Priors [42.310737373877714]
Raven's Progressive Matrices (RPM) はヒトIQテストで広く用いられている。
本稿では,複数のガウス過程を潜在変数の事前として用いる,深い潜在変数モデルを提案する。
連続的に変化する複数の視覚概念を持つRPM型データセット上で,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T17:48:44Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。