論文の概要: A Generic Hybrid Framework for 2D Visual Reconstruction
- arxiv url: http://arxiv.org/abs/2501.19325v1
- Date: Fri, 31 Jan 2025 17:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:40.672766
- Title: A Generic Hybrid Framework for 2D Visual Reconstruction
- Title(参考訳): 2次元視覚再構成のためのジェネリックハイブリッドフレームワーク
- Authors: Daniel Rika, Dror Sholomon, Eli David, Alexandre Pais, Nathan S. Netanyahu,
- Abstract要約: 本稿では,2次元実世界の再現タスクを,正方形の非重複部分を持つジグソーパズル問題 (JPP) として定式化するための多目的ハイブリッドフレームワークを提案する。
提案手法は,一対のパズル片を論理的に評価する深層学習(DL)ベースの互換性尺度(CM)モデルを統合する。
我々の独自のハイブリッド手法は、ポルトガルのタイルパネルと大きな劣化パズルを浸食境界で再構築することで、最先端のSOTA(State-of-the-art)を実現する。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License:
- Abstract: This paper presents a versatile hybrid framework for addressing 2D real-world reconstruction tasks formulated as jigsaw puzzle problems (JPPs) with square, non-overlapping pieces. Our approach integrates a deep learning (DL)-based compatibility measure (CM) model that evaluates pairs of puzzle pieces holistically, rather than focusing solely on their adjacent edges as traditionally done. This DL-based CM is paired with an optimized genetic algorithm (GA)-based solver, which iteratively searches for a global optimal arrangement using the pairwise CM scores of the puzzle pieces. Extensive experimental results highlight the framework's adaptability and robustness across multiple real-world domains. Notably, our unique hybrid methodology achieves state-of-the-art (SOTA) results in reconstructing Portuguese tile panels and large degraded puzzles with eroded boundaries.
- Abstract(参考訳): 本稿では,2次元実世界の再現タスクを,正方形の非重複部分を持つジグソーパズル問題 (JPP) として定式化するための多目的ハイブリッドフレームワークを提案する。
本手法では,従来のように隣接するエッジのみに焦点を絞るのではなく,一対のパズルピースを論理的に評価する,ディープラーニング(DL)ベースの互換性尺度(CM)モデルを統合する。
本発明のDLベースのCMは、最適化された遺伝的アルゴリズム(GA)ベースの解法とペアリングされ、パズルピースのペアのCMスコアを用いて、グローバルな最適配置を反復的に探索する。
大規模な実験の結果は、フレームワークの適応性と、複数の現実世界のドメインにわたる堅牢性を強調している。
特に、我々のユニークなハイブリッド手法は、ポルトガルのタイルパネルと、浸食境界を持つ大きな劣化パズルを再構築する、最先端のSOTA(State-of-the-art)の成果を達成する。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - 3D Geometric Shape Assembly via Efficient Point Cloud Matching [59.241448711254485]
Proxy Match Transform (PMT) は、部品の配向面間の信頼性の高いマッチングを可能にする、高次特徴変換層である。
PMT を基盤として,幾何学的組立作業のための新しいフレームワーク Proxy Match TransformeR (PMTR) を導入する。
我々は,Breaking Badの大規模3次元幾何形状集合ベンチマークデータセットを用いてPMTRの評価を行った。
論文 参考訳(メタデータ) (2024-07-15T08:50:02Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Multi-Phase Relaxation Labeling for Square Jigsaw Puzzle Solving [73.58829980121767]
本稿では,大域最適化に基づく二乗ジグソーパズルの解法を提案する。
この手法は完全に自動化されており、事前情報を前提とせず、未知または未知のピースオリエンテーションでパズルを扱うことができる。
論文 参考訳(メタデータ) (2023-03-26T18:53:51Z) - PuzzleFusion: Unleashing the Power of Diffusion Models for Spatial
Puzzle Solving [17.781484376483707]
本稿では,空間パズル解決のための拡散モデルに基づくエンドツーエンドのニューラルネットワークアーキテクチャを提案する。
驚くべき発見は、拡散モデルを用いることで、条件生成プロセスとしてこれらの困難な空間パズルタスクを効果的に解決できるということである。
エンド・ツー・エンドのニューラル・システムの学習を可能にするため,本論文では,地軸配置による新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-11-24T20:06:11Z) - GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a
generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。
本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。
このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文 参考訳(メタデータ) (2022-07-12T16:02:00Z) - TEN: Twin Embedding Networks for the Jigsaw Puzzle Problem with Eroded
Boundaries [0.0]
ジグソーパズル問題(JPP)は、長年研究されてきたよく知られた研究問題である。
片端情報のみに基づく簡易距離測定を応用した実効CMが多数提案されている。
しかし、これらの古典的手法の実用性は、純粋な合成画像よりも難しい問題に対してかなり疑わしい。
この重要な欠陥を克服するために、いくつかの深層畳み込みニューラルネットワーク(CNN)ベースのCMが最近導入されている。
この論文は、(古典的手法の)比較的低い精度と集中的な計算複雑性の間のギャップを埋めるための重要な最初の試みである。
論文 参考訳(メタデータ) (2022-03-12T17:18:47Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。