論文の概要: GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs
- arxiv url: http://arxiv.org/abs/2503.23598v1
- Date: Sun, 30 Mar 2025 21:35:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.197952
- Title: GenVP: Generating Visual Puzzles with Contrastive Hierarchical VAEs
- Title(参考訳): GenVP: コントラスト階層型VAEによる視覚プラグの生成
- Authors: Kalliopi Basioti, Pritish Sahu, Qingze Tony Liu, Zihao Xu, Hao Wang, Vladimir Pavlovic,
- Abstract要約: 本稿では,RPM生成プロセス全体をモデル化するための生成的ビジュアルパズル (GenVP) を提案する。
私たちのモデルの能力は、1つの特定の問題に対して複数のソリューションを生成することから、望ましいルールセットから完全な新しいパズルを生成することまで、多岐にわたっています。
- 参考スコア(独自算出の注目度): 15.118234858274679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Raven's Progressive Matrices (RPMs) is an established benchmark to examine the ability to perform high-level abstract visual reasoning (AVR). Despite the current success of algorithms that solve this task, humans can generalize beyond a given puzzle and create new puzzles given a set of rules, whereas machines remain locked in solving a fixed puzzle from a curated choice list. We propose Generative Visual Puzzles (GenVP), a framework to model the entire RPM generation process, a substantially more challenging task. Our model's capability spans from generating multiple solutions for one specific problem prompt to creating complete new puzzles out of the desired set of rules. Experiments on five different datasets indicate that GenVP achieves state-of-the-art (SOTA) performance both in puzzle-solving accuracy and out-of-distribution (OOD) generalization in 22 OOD scenarios. Compared to SOTA generative approaches, which struggle to solve RPMs when the feasible solution space increases, GenVP efficiently generalizes to these challenging setups. Moreover, our model demonstrates the ability to produce a wide range of complete RPMs given a set of abstract rules by effectively capturing the relationships between abstract rules and visual object properties.
- Abstract(参考訳): Raven's Progressive Matrices (RPM)は、高レベルの抽象的視覚的推論(AVR)を実行する能力を調べるための確立されたベンチマークである。
この課題を解くアルゴリズムが現在成功しているにもかかわらず、人間は与えられたパズルを超えて一般化し、一連のルールを与えられた新しいパズルを作成することができる。
本稿では,RPM生成プロセス全体をモデル化するフレームワークであるGenerative Visual Puzzles (GenVP)を提案する。
私たちのモデルの能力は、1つの特定の問題に対して複数のソリューションを生成することから、望ましいルールセットから完全な新しいパズルを生成することまで、多岐にわたっています。
5つの異なるデータセットの実験から、GenVPは22のOODシナリオにおいて、パズル解き精度とアウト・オブ・ディストリビューション(OOD)の一般化の両方において、最先端(SOTA)のパフォーマンスを達成することが示されている。
実現可能な解空間が増加すると、RPMを解くのに苦労するSOTA生成アプローチと比較して、GenVPはこれらの挑戦的なセットアップに効率的に一般化する。
さらに,本モデルでは,抽象ルールと視覚オブジェクト特性の関係を効果的に把握することにより,抽象ルールの集合が与えられた広い範囲の完全RPMを生成する能力を示す。
関連論文リスト
- PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。
OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。
OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文 参考訳(メタデータ) (2025-04-15T05:29:31Z) - ERL-MPP: Evolutionary Reinforcement Learning with Multi-head Puzzle Perception for Solving Large-scale Jigsaw Puzzles of Eroded Gaps [28.009783235854584]
マルチヘッド・プッフル・パーセプションを用いた進化的強化学習の枠組みを提案する。
提案したERL-MPPは、大きなギャップを持つJPLEG-5データセットと大規模なパズルを持つMITデータセットで評価される。
両方のデータセットのすべての最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-13T14:56:41Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [51.54046200512198]
Retrieval-augmented Generation (RAG) は、外部の現在の知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントから構成される。
これらの課題を克服するため,RAGパイプラインを多エージェント協調作業として,各コンポーネントをRLエージェントとして扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - Generative AI Enabled Matching for 6G Multiple Access [51.00960374545361]
我々は6G多重アクセスをサポートするGenAI対応マッチング生成フレームワークを提案する。
我々のフレームワークは、与えられた条件と事前定義された報酬に基づいて、より効果的なマッチング戦略を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-29T13:01:26Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection [52.107043437362556]
Raven's Progressive Matrix (RPM) は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。
RPMテストの参加者は、属性変更ルールを推論し、組み合わせることで、強力な推論能力を示すことができる。
本稿では,ルール AbstractIon と Selection を用いて,回答生成問題に対する潜時変数モデルを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:28:44Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a
generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。
本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。
このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文 参考訳(メタデータ) (2022-07-12T16:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。