論文の概要: Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers
- arxiv url: http://arxiv.org/abs/2404.07292v1
- Date: Wed, 10 Apr 2024 18:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 15:48:02.413830
- Title: Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers
- Title(参考訳): 拡散ビジョン変換器を用いた仮面Jigsawパズルの解法
- Authors: Jinyang Liu, Wondmgezahu Teshome, Sandesh Ghimire, Mario Sznaier, Octavia Camps,
- Abstract要約: 画像とビデオのジグソーパズルは、意味のある画像やビデオのシーケンスを復元するために、順序のないシーケンスから画像の断片やビデオフレームを並べ替える難しい作業である。
既存のアプローチはしばしば、パズル要素の絶対的な位置または元のデータに適用される置換動作の予測を行う識別モデルにヒンジする。
本稿では,この課題に対処するために拡散変圧器を利用する革新的な手法であるJPDVTを提案する。
- 参考スコア(独自算出の注目度): 5.374411622670979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving image and video jigsaw puzzles poses the challenging task of rearranging image fragments or video frames from unordered sequences to restore meaningful images and video sequences. Existing approaches often hinge on discriminative models tasked with predicting either the absolute positions of puzzle elements or the permutation actions applied to the original data. Unfortunately, these methods face limitations in effectively solving puzzles with a large number of elements. In this paper, we propose JPDVT, an innovative approach that harnesses diffusion transformers to address this challenge. Specifically, we generate positional information for image patches or video frames, conditioned on their underlying visual content. This information is then employed to accurately assemble the puzzle pieces in their correct positions, even in scenarios involving missing pieces. Our method achieves state-of-the-art performance on several datasets.
- Abstract(参考訳): 画像とビデオのジグソーパズルを解くことは、意味のある画像やビデオのシーケンスを復元するために、順序のないシーケンスから画像の断片やビデオフレームを並べ替える難しい作業となる。
既存のアプローチはしばしば、パズル要素の絶対的な位置または元のデータに適用される置換動作の予測を行う識別モデルにヒンジする。
残念なことに、これらの手法は多数の要素を持つパズルを効果的に解くのに限界に直面している。
本稿では,この課題に対処するために拡散変換器を利用する革新的な手法であるJPDVTを提案する。
具体的には、画像パッチやビデオフレームの位置情報を、その基盤となる視覚的内容に基づいて生成する。
この情報を使ってパズルのピースを正しい位置に正確に組み立てる。
提案手法は,複数のデータセットの最先端性能を実現する。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - A Light Touch Approach to Teaching Transformers Multi-view Geometry [80.35521056416242]
視覚変換器の多視点幾何学習を支援する「ライトタッチ」手法を提案する。
本研究では,トランスフォーマーのクロスアテンションマップの導出にエピポーラ線を用いる。
従来の方法とは異なり、我々の提案ではテスト時にカメラのポーズ情報を必要としない。
論文 参考訳(メタデータ) (2022-11-28T07:54:06Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a
generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。
本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。
このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文 参考訳(メタデータ) (2022-07-12T16:02:00Z) - JigsawGAN: Self-supervised Learning for Solving Jigsaw Puzzles with
Generative Adversarial Networks [31.190344964881625]
本稿では,ジグソーパズルを解くためのGAN(Generative Adversarial Network)に基づく解を提案する。
提案手法は,セマンティクス情報とエッジ情報を同時に利用することにより,ジグソーパズルをより効率的に解くことができる。
論文 参考訳(メタデータ) (2021-01-19T10:40:38Z) - Non-Rigid Puzzles [50.213265511586535]
非剛性多部形状マッチングアルゴリズムを提案する。
非剛性変形中の参照形状とその複数の部品が与えられると仮定する。
合成法と実走査法の実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-26T00:32:30Z) - Pictorial and apictorial polygonal jigsaw puzzles: The lazy caterer
model, properties, and solvers [14.08706290287121]
任意の直線切断数で大域多角形/像を切断して生成した一般凸多角形であるジグソーパズルを定式化する。
このようなパズルの理論的性質を解析し、ピースが幾何的ノイズで汚染されたときの解法に固有の課題を含む。
論文 参考訳(メタデータ) (2020-08-17T22:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。