論文の概要: A Review of Emerging Research Directions in Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2202.10284v1
- Date: Mon, 21 Feb 2022 14:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:57:17.284450
- Title: A Review of Emerging Research Directions in Abstract Visual Reasoning
- Title(参考訳): 抽象的視覚推論における新たな研究方向のレビュー
- Authors: Miko{\l}aj Ma{\l}ki\'nski and Jacek Ma\'ndziuk
- Abstract要約: 入力形態,隠蔽規則,目標課題,認知機能,主な課題の5次元に沿ってタスクを分類する分類法を提案する。
この調査で取り上げられた視点は、共有された異なる性質に関する問題を特徴づけることを可能にし、タスクを解くための既存のアプローチについて統一された視点を提供する。
そのうちの1つは、機械学習の文献において、異なるタスクが独立して検討されていることを示しており、これは人間の知性を測定するためにタスクが使用される方法とは対照的である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract Visual Reasoning (AVR) problems are commonly used to approximate
human intelligence. They test the ability of applying previously gained
knowledge, experience and skills in a completely new setting, which makes them
particularly well-suited for this task. Recently, the AVR problems have become
popular as a proxy to study machine intelligence, which has led to emergence of
new distinct types of problems and multiple benchmark sets. In this work we
review this emerging AVR research and propose a taxonomy to categorise the AVR
tasks along 5 dimensions: input shapes, hidden rules, target task, cognitive
function, and main challenge. The perspective taken in this survey allows to
characterise AVR problems with respect to their shared and distinct properties,
provides a unified view on the existing approaches for solving AVR tasks, shows
how the AVR problems relate to practical applications, and outlines promising
directions for future work. One of them refers to the observation that in the
machine learning literature different tasks are considered in isolation, which
is in the stark contrast with the way the AVR tasks are used to measure human
intelligence, where multiple types of problems are combined within a single IQ
test.
- Abstract(参考訳): 抽象視覚推論(AVR)問題は通常、人間の知性を近似するために用いられる。
事前に獲得した知識、経験、スキルをまったく新しい設定で適用する能力をテストすることで、このタスクに特に適しています。
近年、AVR問題はマシンインテリジェンス研究のプロキシとして人気を集めており、新たな異なるタイプの問題や複数のベンチマークセットが出現している。
本稿では,この新たなavr研究を概観し,入力形状,隠れルール,対象タスク,認知機能,主課題の5次元に沿ってavrタスクを分類する分類法を提案する。
本調査の視点は,avrの課題を,それらの共有的および個別的特性に関して特徴付けることを可能にし,既存のavrタスクの解決方法に関する統一的視点を提供し,avrの問題点が実用的アプリケーションとどのように関連しているかを示し,今後の作業への有望な方向性を概説する。
そのうちの1つは、機械学習の文献では異なるタスクが独立して考慮されているという観察であり、これはavrタスクが人間の知能を測定するために使われる方法とは全く対照的である。
関連論文リスト
- Effectiveness Assessment of Recent Large Vision-Language Models [82.08377770649777]
専門的・汎用的なタスクにおいて,一般的な大規模視覚言語モデル(LVLM)の能力を評価する。
視覚認識とローカライゼーションの領域における最近の3つのオープンソースLVLM(MiniGPT-v2,LLaVA-1.5,Shikra)の性能について検討する。
本研究により, これらのモデルは, 特殊タスクだけでなく, 一般タスクにおいても, 限られた習熟度を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。
提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。
実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文 参考訳(メタデータ) (2023-12-15T18:15:20Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z) - Attention Mechanism based Cognition-level Scene Understanding [23.592893555879538]
Visual Commonsense Reasoning (VCR)モデルは、現実の世界からの推論能力を必要とする、対応する理論的根拠による回答を予測することができる。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
本稿では,視覚的テクスト情報を効率的に融合し,セマンティック情報を並列に符号化し,認知レベルの推論のためのリッチな情報を取得するための並列注意型認知VCRネットワークPAVCRを提案する。
論文 参考訳(メタデータ) (2022-04-17T15:04:44Z) - Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's
Progressive Matrices [0.0]
私たちは最も一般的なタスクタイプであるRavenのプログレッシブマトリックス(RPM)に注目し、RPMを解決するために適用される学習方法とディープニューラルネットワークのレビューを提供します。
本稿は,RPM研究の発見から実世界の問題がいかに恩恵を受けるかを示すことによって,論文を締めくくっている。
論文 参考訳(メタデータ) (2022-01-28T19:24:30Z) - The State of Aerial Surveillance: A Survey [62.198765910573556]
本稿では、コンピュータビジョンとパターン認識の観点から、人間中心の空中監視タスクの概要を概観する。
主な対象は、単体または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される人間である。
論文 参考訳(メタデータ) (2022-01-09T20:13:27Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - All Factors Should Matter! Reference Checklist for Describing Research
Conditions in Pursuit of Comparable IVR Experiments [5.874802930380899]
没入型仮想現実(IVR)実験における重要な問題は、研究条件を比較する能力である。
VRキットと触覚環境は複雑で多様であるが、ICT、心理学、マーケティングといった様々な分野の研究者は、ランドスケープの研究に十分な詳細さでそれらを記述することを無視することが多い。
本稿では,実験の条件を記述するための基準チェックリストについて述べる。
論文 参考訳(メタデータ) (2021-01-04T23:45:52Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Survey on the Analysis and Modeling of Visual Kinship: A Decade in the
Making [66.72253432908693]
親和性認識は多くの実践的応用において難しい問題である。
我々は、多くの人にその見解を刺激した公開リソースとデータ課題についてレビューする。
10周年記念には、さまざまなkinベースのタスクのためのデモコードが用意されている。
論文 参考訳(メタデータ) (2020-06-29T13:25:45Z) - Survey on Reliable Deep Learning-Based Person Re-Identification Models:
Are We There Yet? [19.23187114221822]
人物再識別(PReID)は、インテリジェントビデオ監視(IVS)において最も重大な問題の一つである。
ディープニューラルネットワーク(DNN)は、同様のビジョン問題とテスト時の高速実行に魅力的なパフォーマンスを与えた。
ベンチマークデータセットのセット上で、各モデルについての評価とともに、各モデルについて記述する。
論文 参考訳(メタデータ) (2020-04-30T16:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。