論文の概要: One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems
- arxiv url: http://arxiv.org/abs/2312.09997v1
- Date: Fri, 15 Dec 2023 18:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 14:29:02.321563
- Title: One Self-Configurable Model to Solve Many Abstract Visual Reasoning
Problems
- Title(参考訳): 多くの抽象的視覚推論問題を解決する自己構成可能なモデル
- Authors: Miko{\l}aj Ma{\l}ki\'nski, Jacek Ma\'ndziuk
- Abstract要約: 本稿では,単一階層抽象視覚推論タスクを解くための統一モデルを提案する。
提案したモデルはSCAR-Aware dynamic Layer (SAL)に依存しており、この問題の構造に重みを適応させる。
実験により、SALベースのモデルは、一般的に、様々なタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract Visual Reasoning (AVR) comprises a wide selection of various
problems similar to those used in human IQ tests. Recent years have brought
dynamic progress in solving particular AVR tasks, however, in the contemporary
literature AVR problems are largely dealt with in isolation, leading to highly
specialized task-specific methods. With the aim of developing universal
learning systems in the AVR domain, we propose the unified model for solving
Single-Choice Abstract visual Reasoning tasks (SCAR), capable of solving
various single-choice AVR tasks, without making any a priori assumptions about
the task structure, in particular the number and location of panels. The
proposed model relies on a novel Structure-Aware dynamic Layer (SAL), which
adapts its weights to the structure of the considered AVR problem. Experiments
conducted on Raven's Progressive Matrices, Visual Analogy Problems, and Odd One
Out problems show that SCAR (SAL-based models, in general) effectively solves
diverse AVR tasks, and its performance is on par with the state-of-the-art
task-specific baselines. What is more, SCAR demonstrates effective knowledge
reuse in multi-task and transfer learning settings. To our knowledge, this work
is the first successful attempt to construct a general single-choice AVR solver
relying on self-configurable architecture and unified solving method. With this
work we aim to stimulate and foster progress on task-independent research paths
in the AVR domain, with the long-term goal of development of a general AVR
solver.
- Abstract(参考訳): AVR(Abstract Visual Reasoning)は、人間のIQテストと同様の様々な問題を幅広く選択する。
近年、特定の avr タスクの解法にダイナミックな進歩がもたらされているが、現代の文献では avr 問題は主に独立して扱われており、高度に専門化されたタスク固有の手法に繋がる。
AVR領域におけるユニバーサルラーニングシステムの開発を目的として,タスク構造,特にパネルの数と位置を前提にすることなく,様々な単一選択型AVRタスクを解くことができるSCAR(Single-Choice Abstract visual Reasoning Task)の統一モデルを提案する。
提案モデルは,新しい構造認識動的層(sal)に依存し,その重み付けを考慮されたavr問題の構造に適応させる。
Ravenのプログレッシブ・マトリクス、ビジュアル・アナロジー問題、オッド・ワン・アウトに関する実験は、SCAR(一般にSALベースのモデル)が様々なAVRタスクを効果的に解決し、その性能は最先端のタスク固有のベースラインと同等であることを示している。
さらに、SCARはマルチタスクおよび転送学習設定における効果的な知識再利用を示す。
我々の知る限り、この研究は、自己構成可能なアーキテクチャと統一的な解法を頼りに、一般的な単一選択型AVRソルバの構築に成功した最初の試みである。
この研究により、avrドメインにおけるタスクに依存しない研究パスの進展を刺激し、促進し、汎用的なavrソルバの開発を長期的な目標とする。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering [23.699493284403967]
本稿では,リモートセンシングに特化してカスタマイズされた,最初のMixture of ExpertベースのVLMであるRS-MoEを提案する。
従来のMoEモデルとは異なり、RS-MoEのコアとなるMoEブロックは、新しいインストラクションルータと複数の軽量言語モデル(LLM)をエキスパートモデルとして組み込んだものである。
本モデルでは, 精度, 文脈に関連のあるキャプションを生成する際に, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-03T15:05:49Z) - A Unified View of Abstract Visual Reasoning Problems [0.0]
タスクの統一的なビューを導入し、各インスタンスは、パネルの数、場所、役割に関する前提のない単一のイメージとしてレンダリングされる。
統一された視点の主な利点は、様々なタスクに適用可能な普遍的な学習モデルを開発する能力である。
Raven's Progressive Matrices と Visual Analogy Problems の4つのデータセットで実施された実験は、提案されたタスクの統一表現が、最先端のディープラーニング(DL)モデルや、より広範に、現代のDL画像認識方法に挑戦していることを示している。
論文 参考訳(メタデータ) (2024-06-16T20:52:44Z) - Single-Reset Divide & Conquer Imitation Learning [49.87201678501027]
デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。
いくつかのアルゴリズムは1つのデモンストレーションから学習するために開発されている。
論文 参考訳(メタデータ) (2024-02-14T17:59:47Z) - LAMBO: Large AI Model Empowered Edge Intelligence [71.56135386994119]
次世代エッジインテリジェンスは、オフロード技術を通じて様々なアプリケーションに恩恵をもたらすことが期待されている。
従来のオフロードアーキテクチャは、不均一な制約、部分的な認識、不確実な一般化、トラクタビリティの欠如など、いくつかの問題に直面している。
我々は、これらの問題を解決するための10億以上のパラメータを持つLarge AI Model-Based Offloading (LAMBO)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:25:42Z) - The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios [61.74042680711718]
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
論文 参考訳(メタデータ) (2023-06-23T18:49:20Z) - Assessor360: Multi-sequence Network for Blind Omnidirectional Image
Quality Assessment [50.82681686110528]
Blind Omnidirectional Image Quality Assessment (BOIQA)は、全方位画像(ODI)の人間の知覚品質を客観的に評価することを目的としている。
ODIの品質評価は、既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。
Assessor360と呼ばれるBOIQAのための新しいマルチシーケンスネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:55:28Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - A Review of Emerging Research Directions in Abstract Visual Reasoning [0.0]
入力形態,隠蔽規則,目標課題,認知機能,主な課題の5次元に沿ってタスクを分類する分類法を提案する。
この調査で取り上げられた視点は、共有された異なる性質に関する問題を特徴づけることを可能にし、タスクを解くための既存のアプローチについて統一された視点を提供する。
そのうちの1つは、機械学習の文献において、異なるタスクが独立して検討されていることを示しており、これは人間の知性を測定するためにタスクが使用される方法とは対照的である。
論文 参考訳(メタデータ) (2022-02-21T14:58:02Z) - Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's
Progressive Matrices [0.0]
私たちは最も一般的なタスクタイプであるRavenのプログレッシブマトリックス(RPM)に注目し、RPMを解決するために適用される学習方法とディープニューラルネットワークのレビューを提供します。
本稿は,RPM研究の発見から実世界の問題がいかに恩恵を受けるかを示すことによって,論文を締めくくっている。
論文 参考訳(メタデータ) (2022-01-28T19:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。