論文の概要: Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching
- arxiv url: http://arxiv.org/abs/2602.12280v1
- Date: Thu, 12 Feb 2026 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:26.002959
- Title: Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching
- Title(参考訳): サプライズストローク:ベクタースケッチにおける進歩的セマンティックイリュージョン
- Authors: Huai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu,
- Abstract要約: 本稿では,1つのスケッチがストロークの逐次付加によって劇的な意味変換を行う新しいベクトルスケッチタスクであるプログレッシブ・セマンティック・イリュージョンを紹介する。
本稿では、ベクターストロークを最適化し、意味論的解釈を明確化するための生成フレームワークであるStroke of Surpriseを提案する。
本手法は、認識性と錯覚強度において最先端のベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 5.052864647270501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual illusions traditionally rely on spatial manipulations such as multi-view consistency. In this work, we introduce Progressive Semantic Illusions, a novel vector sketching task where a single sketch undergoes a dramatic semantic transformation through the sequential addition of strokes. We present Stroke of Surprise, a generative framework that optimizes vector strokes to satisfy distinct semantic interpretations at different drawing stages. The core challenge lies in the "dual-constraint": initial prefix strokes must form a coherent object (e.g., a duck) while simultaneously serving as the structural foundation for a second concept (e.g., a sheep) upon adding delta strokes. To address this, we propose a sequence-aware joint optimization framework driven by a dual-branch Score Distillation Sampling (SDS) mechanism. Unlike sequential approaches that freeze the initial state, our method dynamically adjusts prefix strokes to discover a "common structural subspace" valid for both targets. Furthermore, we introduce a novel Overlay Loss that enforces spatial complementarity, ensuring structural integration rather than occlusion. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art baselines in recognizability and illusion strength, successfully expanding visual anagrams from the spatial to the temporal dimension. Project page: https://stroke-of-surprise.github.io/
- Abstract(参考訳): 視覚錯視は、伝統的にマルチビュー一貫性のような空間的な操作に依存している。
本稿では,1つのスケッチがストロークの逐次付加によって劇的な意味変換を行うベクトルスケッチタスクであるプログレッシブ・セマンティック・イリュージョンを紹介する。
本稿では、ベクターストロークを最適化し、異なる描画段階における異なる意味解釈を満足させる生成フレームワークであるStroke of Surpriseを提案する。
最初のプレフィックス・ストロークはコヒーレント・オブジェクト(例えば、アヒル)を形成する必要があり、同時にデルタ・ストロークを追加する2番目の概念(例えば、羊)の基盤となる。
そこで本研究では,デュアルブランチ・スコア蒸留サンプリング(SDS)機構によって駆動されるシーケンス対応共同最適化フレームワークを提案する。
初期状態を凍結するシーケンシャルなアプローチとは異なり、我々の手法は接頭辞のストロークを動的に調整し、両方のターゲットに有効な「共通構造部分空間」を発見する。
さらに,空間的相補性を強制し,閉塞よりも構造的統合を確実にするオーバーレイロスを導入する。
広汎な実験により,本手法は認識可能性と錯覚強度において最先端のベースラインを著しく上回り,空間から時間次元への視覚アナグラムの展開に成功していることが示された。
プロジェクトページ:https://stroke-of-surprise.github.io/
関連論文リスト
- Attention-space Contrastive Guidance for Efficient Hallucination Mitigation in LVLMs [9.043999205886658]
大きな視覚言語モデルにおける幻覚は、言語が視覚的証拠を支配するときにしばしば起こる。
本稿では,視覚言語と言語のみの注意経路を構築するために,自己注意層内で動作するシングルパス機構であるContrastive Guidance(ACG)を提案する。
ACGは、計算コストを大幅に削減しつつ、最先端の忠実さとキャプション品質を達成する。
論文 参考訳(メタデータ) (2026-01-20T08:04:18Z) - RecTok: Reconstruction Distillation along Rectified Flow [85.51292475005151]
本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。
提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
論文 参考訳(メタデータ) (2025-12-15T15:14:20Z) - SegSplat: Feed-forward Gaussian Splatting and Open-Set Semantic Segmentation [114.57192386025373]
SegSplatは、高速でフィードフォワードな3D再構成とリッチでオープンなセマンティック理解のギャップを埋めるために設計された、新しいフレームワークである。
この研究は、意味的に認識された3D環境の実践的でオンザフライな生成に向けた重要なステップである。
論文 参考訳(メタデータ) (2025-11-23T10:26:38Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - StrokeFusion: Vector Sketch Generation via Joint Stroke-UDF Encoding and Latent Sequence Diffusion [13.862427684807486]
StrokeFusionはベクトルスケッチ生成のための2段階のフレームワークである。
デュアルモードのスケッチ機能学習ネットワークがあり、ストロークを高品質の潜伏空間にマッピングする。
これは、生成中のストローク位置、スケール、軌道を同時に調整するストロークレベルの潜在拡散モデルを利用する。
論文 参考訳(メタデータ) (2025-03-31T06:03:03Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - VQ-SGen: A Vector Quantized Stroke Representation for Creative Sketch Generation [12.486307321835909]
VQ-SGenは高品質なクリエイティブスケッチ生成のための新しいアルゴリズムである。
細かなスケッチ生成のためのベクトル量子化(VQ)ストローク表現を提案する。
提案手法はCreativeSketchデータセット上の既存の最先端技術を上回る。
論文 参考訳(メタデータ) (2024-11-25T14:51:22Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。