論文の概要: Generalization and Knowledge Transfer in Abstract Visual Reasoning Models
- arxiv url: http://arxiv.org/abs/2406.11061v1
- Date: Sun, 16 Jun 2024 20:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:13:27.040332
- Title: Generalization and Knowledge Transfer in Abstract Visual Reasoning Models
- Title(参考訳): 抽象視覚推論モデルにおける一般化と知識伝達
- Authors: Mikołaj Małkiński, Jacek Mańdziuk,
- Abstract要約: 抽象的な視覚的推論領域におけるディープニューラルネットワークの一般化と知識再利用能力について検討する。
本稿では,4つの一般化規則を持つベンチマークであるAttributeless-I-RAVENを紹介する。
I-RAVEN-Meshはラインベースパターンからなる新しいコンポーネント構造でRPMを強化したデータセットである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study generalization and knowledge reuse capabilities of deep neural networks in the domain of abstract visual reasoning (AVR), employing Raven's Progressive Matrices (RPMs), a recognized benchmark task for assessing AVR abilities. Two knowledge transfer scenarios referring to the I-RAVEN dataset are investigated. Firstly, inspired by generalization assessment capabilities of the PGM dataset and popularity of I-RAVEN, we introduce Attributeless-I-RAVEN, a benchmark with four generalization regimes that allow to test generalization of abstract rules applied to held-out attributes. Secondly, we construct I-RAVEN-Mesh, a dataset that enriches RPMs with a novel component structure comprising line-based patterns, facilitating assessment of progressive knowledge acquisition in transfer learning setting. The developed benchmarks reveal shortcomings of the contemporary deep learning models, which we partly address with Pathways of Normalized Group Convolution (PoNG) model, a novel neural architecture for solving AVR tasks. PoNG excels in both presented challenges, as well as the standard I-RAVEN and PGM setups.
- Abstract(参考訳): 抽象的視覚推論(AVR)領域における深層ニューラルネットワークの一般化と知識再利用能力について,Raven's Progressive Matrices (RPMs)を用いて検討した。
I-RAVENデータセットに言及した2つの知識伝達シナリオについて検討した。
まず、PGMデータセットの一般化評価機能とI-RAVENの人気に触発されて、ホールドアウト属性に適用された抽象ルールの一般化をテストする4つの一般化規則を持つベンチマークであるAttributeless-I-RAVENを紹介する。
第二にI-RAVEN-Meshは、ラインベースパターンからなる新しいコンポーネント構造でRPMを豊かにするデータセットで、トランスファーラーニング環境でのプログレッシブ知識獲得の評価を容易にする。
開発したベンチマークでは、AVRタスクを解決する新しいニューラルネットワークであるPathways of Normalized Group Convolution(PoNG)モデルに部分的に対処する、現代のディープラーニングモデルの欠点が明らかになった。
PoNGは、標準のI-RAVENとPGMのセットアップと同様に、提示された課題の両方に優れています。
関連論文リスト
- A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。
本稿では,近年の素子ワイドZSIRの進歩について概説する。
まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。
我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。
実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文 参考訳(メタデータ) (2024-06-18T10:34:28Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Evaluating the Generalization Ability of Super-Resolution Networks [45.867729539843]
本稿では,SRGAネットワークの一般化評価指標を提案する。
SRGAは、一般化能力を測定するためにディープネットワークの内部特性の統計特性を利用する。
一般化能力に関する既存のSRモデルをベンチマークする。
論文 参考訳(メタデータ) (2022-05-14T09:33:20Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Pointer Value Retrieval: A new benchmark for understanding the limits of
neural network generalization [40.21297628440919]
我々は、ニューラルネットワークの一般化の限界を探求する新しいベンチマーク、Pointer Value Retrieval(PVR)タスクを導入する。
PVRタスクは視覚的および記号的な入力で構成され、それぞれが様々な難易度を持つ。
このタスク構造が一般化を理解するための豊富なテストベッドを提供することを示す。
論文 参考訳(メタデータ) (2021-07-27T03:50:31Z) - Explaining Deep Learning Models for Structured Data using Layer-Wise
Relevance Propagation [0.0]
LRP(Layer-wise Relevance)は、コンピュータビジョンにおける深層モデルのための確立された説明可能性技術であり、入力画像の直感的な可読熱マップを提供する。
本稿では,LIME(Local Interpretable Model-Agnostic Ex-planations)とSHAP(Shapley Additive Explanations)の従来の説明可能性概念よりも,LRPが有効であることを示す。
論文 参考訳(メタデータ) (2020-11-26T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。