Fugu-MT 論文翻訳(概要): A Review of Emerging Research Directions in Abstract Visual Reasoning

論文の概要: A Review of Emerging Research Directions in Abstract Visual Reasoning

arxiv url: http://arxiv.org/abs/2202.10284v1
Date: Mon, 21 Feb 2022 14:58:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-22 15:57:17.284450
Title: A Review of Emerging Research Directions in Abstract Visual Reasoning
Title（参考訳）: 抽象的視覚推論における新たな研究方向のレビュー
Authors: Miko{\l}aj Ma{\l}ki\'nski and Jacek Ma\'ndziuk
Abstract要約: 入力形態,隠蔽規則,目標課題,認知機能,主な課題の5次元に沿ってタスクを分類する分類法を提案する。この調査で取り上げられた視点は、共有された異なる性質に関する問題を特徴づけることを可能にし、タスクを解くための既存のアプローチについて統一された視点を提供する。そのうちの1つは、機械学習の文献において、異なるタスクが独立して検討されていることを示しており、これは人間の知性を測定するためにタスクが使用される方法とは対照的である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Abstract Visual Reasoning (AVR) problems are commonly used to approximate human intelligence. They test the ability of applying previously gained knowledge, experience and skills in a completely new setting, which makes them particularly well-suited for this task. Recently, the AVR problems have become popular as a proxy to study machine intelligence, which has led to emergence of new distinct types of problems and multiple benchmark sets. In this work we review this emerging AVR research and propose a taxonomy to categorise the AVR tasks along 5 dimensions: input shapes, hidden rules, target task, cognitive function, and main challenge. The perspective taken in this survey allows to characterise AVR problems with respect to their shared and distinct properties, provides a unified view on the existing approaches for solving AVR tasks, shows how the AVR problems relate to practical applications, and outlines promising directions for future work. One of them refers to the observation that in the machine learning literature different tasks are considered in isolation, which is in the stark contrast with the way the AVR tasks are used to measure human intelligence, where multiple types of problems are combined within a single IQ test.
Abstract（参考訳）: 抽象視覚推論(AVR)問題は通常、人間の知性を近似するために用いられる。事前に獲得した知識、経験、スキルをまったく新しい設定で適用する能力をテストすることで、このタスクに特に適しています。近年、AVR問題はマシンインテリジェンス研究のプロキシとして人気を集めており、新たな異なるタイプの問題や複数のベンチマークセットが出現している。本稿では,この新たなavr研究を概観し,入力形状,隠れルール,対象タスク,認知機能,主課題の5次元に沿ってavrタスクを分類する分類法を提案する。本調査の視点は,avrの課題を,それらの共有的および個別的特性に関して特徴付けることを可能にし,既存のavrタスクの解決方法に関する統一的視点を提供し,avrの問題点が実用的アプリケーションとどのように関連しているかを示し,今後の作業への有望な方向性を概説する。そのうちの1つは、機械学習の文献では異なるタスクが独立して考慮されているという観察であり、これはavrタスクが人間の知能を測定するために使われる方法とは全く対照的である。

関連論文リスト

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文参考訳（メタデータ） (2025-09-23T12:00:14Z)
Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning [52.107043437362556]
抽象視覚推論(AVR)は、抽象ルールを素早く発見し、新しいシナリオに一般化することを可能にする。本稿では,統一フレームワークにおける複数のタスクに対処する,統一条件生成解法(UCGS)を提案する。 UCGSはゼロショット推論の能力を示しており、テストフェーズで目に見えないタスクから問題に対する抽象的推論を行うことができる。
論文参考訳（メタデータ） (2025-07-15T21:54:51Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。 ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-12-29T10:13:30Z)
A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文参考訳（メタデータ） (2024-10-19T11:11:09Z)
A Critical Analysis on Machine Learning Techniques for Video-based Human Activity Recognition of Surveillance Systems: A Review [1.3693860189056777]
混雑した場所での異常な活動の増大は、インテリジェントな監視システムの必要性を喚起する。ビデオに基づく人間の活動認識は、そのプレス問題で多くの研究者を惹きつけている。本稿では,映像に基づくヒューマンアクティビティ認識(HAR)技術について批判的な調査を行う。
論文参考訳（メタデータ） (2024-09-01T14:43:57Z)
A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文参考訳（メタデータ） (2024-07-20T03:53:32Z)
Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。既存のアクティブ検索手法は2つの課題に直面している。彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文参考訳（メタデータ） (2024-06-18T12:09:02Z)
A Unified View of Abstract Visual Reasoning Problems [0.0]
タスクの統一的なビューを導入し、各インスタンスは、パネルの数、場所、役割に関する前提のない単一のイメージとしてレンダリングされる。統一された視点の主な利点は、様々なタスクに適用可能な普遍的な学習モデルを開発する能力である。 Raven's Progressive Matrices と Visual Analogy Problems の4つのデータセットで実施された実験は、提案されたタスクの統一表現が、最先端のディープラーニング(DL)モデルや、より広範に、現代のDL画像認識方法に挑戦していることを示している。
論文参考訳（メタデータ） (2024-06-16T20:52:44Z)
Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文参考訳（メタデータ） (2024-03-07T08:25:27Z)
One Self-Configurable Model to Solve Many Abstract Visual Reasoning Problems [0.0]
本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
論文参考訳（メタデータ） (2023-12-15T18:15:20Z)
IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。 7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文参考訳（メタデータ） (2023-01-31T01:24:45Z)
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices [0.0]
私たちは最も一般的なタスクタイプであるRavenのプログレッシブマトリックス(RPM)に注目し、RPMを解決するために適用される学習方法とディープニューラルネットワークのレビューを提供します。本稿は,RPM研究の発見から実世界の問題がいかに恩恵を受けるかを示すことによって,論文を締めくくっている。
論文参考訳（メタデータ） (2022-01-28T19:24:30Z)
The State of Aerial Surveillance: A Survey [62.198765910573556]
本稿では、コンピュータビジョンとパターン認識の観点から、人間中心の空中監視タスクの概要を概観する。主な対象は、単体または複数の被験者が検出され、特定され、追跡され、再同定され、その振る舞いが分析される人間である。
論文参考訳（メタデータ） (2022-01-09T20:13:27Z)
Survey on Reliable Deep Learning-Based Person Re-Identification Models: Are We There Yet? [19.23187114221822]
人物再識別(PReID)は、インテリジェントビデオ監視(IVS)において最も重大な問題の一つである。ディープニューラルネットワーク(DNN)は、同様のビジョン問題とテスト時の高速実行に魅力的なパフォーマンスを与えた。ベンチマークデータセットのセット上で、各モデルについての評価とともに、各モデルについて記述する。
論文参考訳（メタデータ） (2020-04-30T16:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。