論文の概要: A-I-RAVEN and I-RAVEN-Mesh: Two New Benchmarks for Abstract Visual Reasoning
- arxiv url: http://arxiv.org/abs/2406.11061v2
- Date: Fri, 16 May 2025 12:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:10.98636
- Title: A-I-RAVEN and I-RAVEN-Mesh: Two New Benchmarks for Abstract Visual Reasoning
- Title(参考訳): A-I-RAVENとI-RAVEN-Mesh: 抽象的ビジュアル推論のための2つの新しいベンチマーク
- Authors: Mikołaj Małkiński, Jacek Mańdziuk,
- Abstract要約: 抽象的な視覚的推論領域におけるディープニューラルネットワークの一般化と知識再利用能力について検討する。
本稿では,Attributeless-I-RAVEN (A-I-RAVEN) について紹介する。
I-RAVEN-Meshはラインベースパターンからなる新しいコンポーネント構造でRPMを強化したデータセットである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study generalization and knowledge reuse capabilities of deep neural networks in the domain of abstract visual reasoning (AVR), employing Raven's Progressive Matrices (RPMs), a recognized benchmark task for assessing AVR abilities. Two knowledge transfer scenarios referring to the I-RAVEN dataset are investigated. Firstly, inspired by generalization assessment capabilities of the PGM dataset and popularity of I-RAVEN, we introduce Attributeless-I-RAVEN (A-I-RAVEN), a benchmark with 10 generalization regimes that allow to systematically test generalization of abstract rules applied to held-out attributes at various levels of complexity (primary and extended regimes). In contrast to PGM, A-I-RAVEN features compositionality, a variety of figure configurations, and does not require substantial computational resources. Secondly, we construct I-RAVEN-Mesh, a dataset that enriches RPMs with a novel component structure comprising line-based patterns, facilitating assessment of progressive knowledge acquisition in transfer learning setting. We evaluate 13 strong models from the AVR literature on the introduced datasets, revealing their specific shortcomings in generalization and knowledge transfer.
- Abstract(参考訳): 抽象的視覚推論(AVR)領域における深層ニューラルネットワークの一般化と知識再利用能力について,Raven's Progressive Matrices (RPMs)を用いて検討した。
I-RAVENデータセットに言及した2つの知識伝達シナリオについて検討した。
まず、PGMデータセットの一般化評価機能とI-RAVENの人気に触発されて、様々な複雑性レベル(初級および拡張型)の保持属性に適用された抽象ルールの一般化を体系的にテストできる10の一般化規則を持つベンチマークであるAttributeless-I-RAVEN(A-I-RAVEN)を紹介する。
PGMとは対照的に、A-I-RAVENは構成性、様々な図形構成を特徴とし、かなりの計算資源を必要としない。
第二にI-RAVEN-Meshは、ラインベースパターンからなる新しいコンポーネント構造でRPMを豊かにするデータセットで、トランスファーラーニング環境でのプログレッシブ知識獲得の評価を容易にする。
導入したデータセットに基づいて,AVR文献から13の強力なモデルを評価し,一般化と知識伝達における特定の欠点を明らかにした。
関連論文リスト
- FORCE: Feature-Oriented Representation with Clustering and Explanation [0.0]
SHAPに基づく教師付きディープラーニングフレームワークForceを提案する。
ニューラルネットワークアーキテクチャにおけるSHAP値の2段階の使用に依存している。
我々はForceが潜在機能とアテンションフレームワークを組み込まないネットワークと比較して、全体的なパフォーマンスを劇的に改善したことを示す。
論文 参考訳(メタデータ) (2025-04-07T22:05:50Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [67.31811007549489]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構を応用して, シミュレータフリー, 省力化の両面で新たな観察指導が可能となり, 一般化が促進される。
離散環境 (R2R, REVERIE, R4R) と連続環境 (R2R-CE) の両方における実験により, 本手法の優れた性能と優れた一般化能力が示された。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - A Survey on Knowledge-Oriented Retrieval-Augmented Generation [45.65542434522205]
近年,RAG (Retrieval-Augmented Generation) が注目されている。
RAGは大規模検索システムと生成モデルを組み合わせる。
動的外部知識を用いた生成モデルの強化など,RAGの重要な特徴について論じる。
論文 参考訳(メタデータ) (2025-03-11T01:59:35Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。
本稿では,近年の素子ワイドZSIRの進歩について概説する。
まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
論文 参考訳(メタデータ) (2024-08-09T05:49:21Z) - RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。
我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。
実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文 参考訳(メタデータ) (2024-06-18T10:34:28Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Evaluating the Generalization Ability of Super-Resolution Networks [45.867729539843]
本稿では,SRGAネットワークの一般化評価指標を提案する。
SRGAは、一般化能力を測定するためにディープネットワークの内部特性の統計特性を利用する。
一般化能力に関する既存のSRモデルをベンチマークする。
論文 参考訳(メタデータ) (2022-05-14T09:33:20Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Pointer Value Retrieval: A new benchmark for understanding the limits of
neural network generalization [40.21297628440919]
我々は、ニューラルネットワークの一般化の限界を探求する新しいベンチマーク、Pointer Value Retrieval(PVR)タスクを導入する。
PVRタスクは視覚的および記号的な入力で構成され、それぞれが様々な難易度を持つ。
このタスク構造が一般化を理解するための豊富なテストベッドを提供することを示す。
論文 参考訳(メタデータ) (2021-07-27T03:50:31Z) - Explaining Deep Learning Models for Structured Data using Layer-Wise
Relevance Propagation [0.0]
LRP(Layer-wise Relevance)は、コンピュータビジョンにおける深層モデルのための確立された説明可能性技術であり、入力画像の直感的な可読熱マップを提供する。
本稿では,LIME(Local Interpretable Model-Agnostic Ex-planations)とSHAP(Shapley Additive Explanations)の従来の説明可能性概念よりも,LRPが有効であることを示す。
論文 参考訳(メタデータ) (2020-11-26T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。