論文の概要: Seq2Seq Models Reconstruct Visual Jigsaw Puzzles without Seeing Them
- arxiv url: http://arxiv.org/abs/2511.06315v1
- Date: Sun, 09 Nov 2025 10:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.882925
- Title: Seq2Seq Models Reconstruct Visual Jigsaw Puzzles without Seeing Them
- Title(参考訳): Seq2Seqモデル - テーマを見ずにビジュアルJigsawのパズルを再構築する
- Authors: Gur Elkn, Ofir Itzhak Shahar, Ohad Ben-Shahar,
- Abstract要約: 本稿では,各パズルピースをトークンの離散列に変換する特殊トークン化器を提案する。
ブラインド」ソルバとして扱われ、エンコーダ・デコーダ変換器は元のレイアウトを正確に再構築した。
視覚的な入力を意図的に制限されているにもかかわらず、我々のモデルは最先端の結果を得る。
- 参考スコア(独自算出の注目度): 2.8834483859625952
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Jigsaw puzzles are primarily visual objects, whose algorithmic solutions have traditionally been framed from a visual perspective. In this work, however, we explore a fundamentally different approach: solving square jigsaw puzzles using language models, without access to raw visual input. By introducing a specialized tokenizer that converts each puzzle piece into a discrete sequence of tokens, we reframe puzzle reassembly as a sequence-to-sequence prediction task. Treated as "blind" solvers, encoder-decoder transformers accurately reconstruct the original layout by reasoning over token sequences alone. Despite being deliberately restricted from accessing visual input, our models achieve state-of-the-art results across multiple benchmarks, often outperforming vision-based methods. These findings highlight the surprising capability of language models to solve problems beyond their native domain, and suggest that unconventional approaches can inspire promising directions for puzzle-solving research.
- Abstract(参考訳): Jigsawのパズルは、主にビジュアルオブジェクトであり、そのアルゴリズム的なソリューションは、伝統的に視覚的な視点からフレーム化されてきた。
しかし,本研究では,言語モデルを用いた正方形ジグソーパズルの解法を,生の視覚的入力を使わずに,根本的に異なるアプローチを探求する。
各パズルピースを離散的なトークン列に変換する特殊トークン化器を導入することにより、パズルの再組み立てをシーケンシャル・ツー・シーケンス予測タスクとして再設計する。
エンコーダ・デコーダ変換器は「盲」解決器として扱われ、トークンシーケンスのみを推論することで、元のレイアウトを正確に再構築する。
視覚入力へのアクセスを意図的に制限されているにもかかわらず、我々のモデルは複数のベンチマークにまたがって最先端の結果を得ることができ、しばしば視覚ベースの手法よりも優れています。
これらの知見は、言語モデルがネイティブドメインを超えた問題を解決する驚くべき能力を強調し、非伝統的なアプローチがパズル解きの研究に有望な方向性をもたらすことを示唆している。
関連論文リスト
- Solving Convex Partition Visual Jigsaw Puzzles [3.0427549266235125]
Jigsawパズルの解決には、一貫性のある全体を再構築するために、順序のないピースを元のポーズに再構成する必要がある。
文献の多くは正方形のジグソーパズルの解法の開発に重点を置いており、その実用性は著しく制限されている。
本研究では,コンベックス分割(Convex Partitions)と呼ばれる問題に焦点をあて,計算的に処理されるパズルの種類を大幅に拡大する。
論文 参考訳(メタデータ) (2025-11-06T15:22:46Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers [5.374411622670979]
画像とビデオのジグソーパズルは、意味のある画像やビデオのシーケンスを復元するために、順序のないシーケンスから画像の断片やビデオフレームを並べ替える難しい作業である。
既存のアプローチはしばしば、パズル要素の絶対的な位置または元のデータに適用される置換動作の予測を行う識別モデルにヒンジする。
本稿では,この課題に対処するために拡散変圧器を利用する革新的な手法であるJPDVTを提案する。
論文 参考訳(メタデータ) (2024-04-10T18:40:23Z) - Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning [24.386388107656334]
本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
論文 参考訳(メタデータ) (2024-03-06T17:15:04Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a
generative mental image [15.132848477903314]
すべての部品からメンタルなイメージを推測し、その部品を爆発を避けるためにマッチさせることができる。
本研究では,未整列片の集合が与えられた画像の再構成方法を学び,各部品の符号化を発電機の収穫層に整合させる共同埋め込み空間を学習する。
このような場合、我々のモデルはパズルのサイズに依存しないが、従来の1つの大きさの深層学習法とは対照的である。
論文 参考訳(メタデータ) (2022-07-12T16:02:00Z) - Graph Jigsaw Learning for Cartoon Face Recognition [79.29656077338828]
畳み込みニューラルネットワーク(CNN)を用いたマンガ顔認識のための形状指向表現の学習は困難である
分類ネットワークの様々な段階においてジグソーパズルを構築し,グラフ畳み込みネットワーク(GCN)を段階的に解くグラフJigsawを提案する。
提案したグラフJigsawは、2つの人気のあるマンガの顔データセットにおいて、他の顔認識やジグソーベースの手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-07-14T08:01:06Z) - Pictorial and apictorial polygonal jigsaw puzzles: The lazy caterer
model, properties, and solvers [14.08706290287121]
任意の直線切断数で大域多角形/像を切断して生成した一般凸多角形であるジグソーパズルを定式化する。
このようなパズルの理論的性質を解析し、ピースが幾何的ノイズで汚染されたときの解法に固有の課題を含む。
論文 参考訳(メタデータ) (2020-08-17T22:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。