論文の概要: Benchmarking Content-Based Puzzle Solvers on Corrupted Jigsaw Puzzles
- arxiv url: http://arxiv.org/abs/2507.07828v1
- Date: Thu, 10 Jul 2025 15:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.453886
- Title: Benchmarking Content-Based Puzzle Solvers on Corrupted Jigsaw Puzzles
- Title(参考訳): 破壊されたJigsawパズルにおけるコンテンツベースのパズル解のベンチマーク
- Authors: Richard Dirauf, Florian Wolz, Dario Zanca, Björn Eskofier,
- Abstract要約: そこで我々は,3種類のジグソーパズル汚職に対して,コンテンツに基づくパズル解法の評価を行った。
ディープラーニングモデルは、拡張データによる微調整によって、その堅牢性を大幅に改善することができる。
我々は,現実の人工物の自動復元を向上するための有望な研究方針を強調した。
- 参考スコア(独自算出の注目度): 2.06242362470764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-based puzzle solvers have been extensively studied, demonstrating significant progress in computational techniques. However, their evaluation often lacks realistic challenges crucial for real-world applications, such as the reassembly of fragmented artefacts or shredded documents. In this work, we investigate the robustness of State-Of-The-Art content-based puzzle solvers introducing three types of jigsaw puzzle corruptions: missing pieces, eroded edges, and eroded contents. Evaluating both heuristic and deep learning-based solvers, we analyse their ability to handle these corruptions and identify key limitations. Our results show that solvers developed for standard puzzles have a rapid decline in performance if more pieces are corrupted. However, deep learning models can significantly improve their robustness through fine-tuning with augmented data. Notably, the advanced Positional Diffusion model adapts particularly well, outperforming its competitors in most experiments. Based on our findings, we highlight promising research directions for enhancing the automated reconstruction of real-world artefacts.
- Abstract(参考訳): コンテントベースのパズル解法は広く研究され、計算技術に大きな進歩を見せている。
しかし、それらの評価は、断片化された成果物や細断された文書の再組み立てなど、現実世界のアプリケーションにとって重要な現実的な課題を欠いていることが多い。
本研究では,ステートオフ・ザ・アーツのコンテントベースのパズル解法が,欠落片,浸食端,浸食内容の3種類のジグソーパズルの汚職を導入した場合のロバスト性について検討する。
ヒューリスティックとディープラーニングに基づく解法の両方を評価することで、これらの汚職に対処し、鍵となる制限を識別する能力を分析します。
以上の結果から,標準的なパズルに開発された解法は,より多くのピースが破損した場合に急速に性能が低下することが明らかとなった。
しかし、ディープラーニングモデルは、拡張データによる微調整によって、その堅牢性を大幅に改善することができる。
特に、先進的な位置拡散モデルは特に順応し、多くの実験でライバルより優れている。
本研究は,実世界の人工物の自動復元の方向性を明らかにすることを目的としている。
関連論文リスト
- PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。
OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。
OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文 参考訳(メタデータ) (2025-04-15T05:29:31Z) - ERL-MPP: Evolutionary Reinforcement Learning with Multi-head Puzzle Perception for Solving Large-scale Jigsaw Puzzles of Eroded Gaps [28.009783235854584]
マルチヘッド・プッフル・パーセプションを用いた進化的強化学習の枠組みを提案する。
提案したERL-MPPは、大きなギャップを持つJPLEG-5データセットと大規模なパズルを持つMITデータセットで評価される。
両方のデータセットのすべての最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-13T14:56:41Z) - VGRP-Bench: Visual Grid Reasoning Puzzle Benchmark for Large Vision-Language Models [31.645103181716678]
LVLM(Large Vision-Language Models)は、正確な認識、ルール理解、論理的推論を必要とするパズルと競合する。
VGRP-Benchは、20種類のパズルを特徴とするVisual Grid Reasoning Puzzle Benchmarkである。
以上の結果から,現在最先端のLVLMでさえこれらのパズルに苦戦していることが明らかとなり,パズル解法の基本的限界が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-29T12:50:38Z) - Re-assembling the past: The RePAIR dataset and benchmark for real world 2D and 3D puzzle solving [46.073519734119266]
我々のデータセットには、現在の2Dおよび3Dパズル解決のベンチマークに共通するユニークな特性がある。
破片と骨折は、第二次世界大戦中にポンペイ考古学公園で爆破されたフレスコの崩壊によって引き起こされた現実的なものである。
データセットは、特徴的な画像要素を持つ高解像度画像を提供するマルチモーダルである。
論文 参考訳(メタデータ) (2024-10-31T15:10:38Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。