論文の概要: ViSketch-GPT: Collaborative Multi-Scale Feature Extraction for Sketch Recognition and Generation
- arxiv url: http://arxiv.org/abs/2503.22374v1
- Date: Fri, 28 Mar 2025 12:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.683278
- Title: ViSketch-GPT: Collaborative Multi-Scale Feature Extraction for Sketch Recognition and Generation
- Title(参考訳): ViSketch-GPT: スケッチ認識と生成のための協調的マルチスケール特徴抽出
- Authors: Giulio Federico, Giuseppe Amato, Fabio Carrara, Claudio Gennaro, Marco Di Benedetto,
- Abstract要約: ViSketch-GPTは、マルチスケールコンテキスト抽出アプローチによって課題に対処するために設計された新しいアルゴリズムである。
このモデルは複雑な詳細を複数のスケールで捉え、アンサンブルのようなメカニズムで組み合わせる。
ViSketch-GPTの有効性は、QuickDrawデータセットの広範な実験を通じて検証される。
- 参考スコア(独自算出の注目度): 7.999454304974351
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding the nature of human sketches is challenging because of the wide variation in how they are created. Recognizing complex structural patterns improves both the accuracy in recognizing sketches and the fidelity of the generated sketches. In this work, we introduce ViSketch-GPT, a novel algorithm designed to address these challenges through a multi-scale context extraction approach. The model captures intricate details at multiple scales and combines them using an ensemble-like mechanism, where the extracted features work collaboratively to enhance the recognition and generation of key details crucial for classification and generation tasks. The effectiveness of ViSketch-GPT is validated through extensive experiments on the QuickDraw dataset. Our model establishes a new benchmark, significantly outperforming existing methods in both classification and generation tasks, with substantial improvements in accuracy and the fidelity of generated sketches. The proposed algorithm offers a robust framework for understanding complex structures by extracting features that collaborate to recognize intricate details, enhancing the understanding of structures like sketches and making it a versatile tool for various applications in computer vision and machine learning.
- Abstract(参考訳): 人間のスケッチの性質を理解することは、その作り方に大きなバリエーションがあるため、難しい。
複雑な構造パターンを認識することは、スケッチを認識する際の精度と、生成されたスケッチの忠実さの両方を改善する。
本研究では,これらの課題に対処する新しいアルゴリズムであるViSketch-GPTを紹介する。
このモデルは、複数のスケールで複雑な詳細をキャプチャし、それらをアンサンブルのようなメカニズムで組み合わせ、抽出された特徴を協調して働き、分類と生成に不可欠な重要な詳細の認識と生成を強化する。
ViSketch-GPTの有効性は、QuickDrawデータセットの広範な実験を通じて検証される。
提案モデルでは,分類タスクと生成タスクの両方において既存の手法を著しく上回り,精度とスケッチの忠実度を大幅に向上した新しいベンチマークを構築している。
提案アルゴリズムは、複雑な詳細を認識するために協調して機能を取り出すことにより、複雑な構造を理解するための堅牢なフレームワークを提供する。
関連論文リスト
- VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - Global graph features unveiled by unsupervised geometric deep learning [0.0]
GAUDI(Graph Autoencoder Uncovering Descriptive Information)は,幾何学的教師なしディープラーニングフレームワークである。
GAUDIは、階層的なプーリングとアップサンプリング層を備えた革新的な時間ガラスアーキテクチャを採用し、接続情報を保存するためにスキップ接続を介してリンクする。
我々は、小型世界のネットワークのモデリング、超解像顕微鏡からのアセンブリのキャラクタリゼーション、Vicsekモデルにおける集合運動の解析、脳の接続性の変化の年齢変化の把握など、複数のアプリケーションにまたがるそのパワーを実証する。
論文 参考訳(メタデータ) (2025-03-07T16:38:41Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - Complexity in Complexity: Understanding Visual Complexity Through Structure, Color, and Surprise [6.324765782436764]
人間がどのように視覚の複雑さを知覚するかを理解することは、視覚認知において重要な研究領域である。
複雑性を正確にモデル化することは、これまで考えられていたほど単純ではなく、データセットのバイアスに対処するために、知覚的および意味的な要素を追加する必要がある。
我々のモデルは、解釈可能性を維持しながら予測性能を改善し、視覚的複雑さの認識と評価についてより深い洞察を提供する。
論文 参考訳(メタデータ) (2025-01-27T09:32:56Z) - Motif Guided Graph Transformer with Combinatorial Skeleton Prototype Learning for Skeleton-Based Person Re-Identification [60.939250172443586]
3Dスケルトンデータによる人物再識別(re-ID)は多くのシナリオにおいて重要な価値を持つ課題である。
既存の骨格に基づく手法は、典型的には全ての関節間の仮想運動関係を仮定し、学習に平均的な関節またはシーケンス表現を採用する。
本稿では,Y Combinatorial skeleton prototype learning (MoCos)を用いた汎用Motifガイドグラフトランスフォーマを提案する。
MoCosは、構造特異的で歩行関連のある身体関係とスケルトングラフの特徴を利用して、人物のre-IDに効果的な骨格表現を学習する。
論文 参考訳(メタデータ) (2024-12-12T08:13:29Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition [14.667745062352148]
本研究の目的は,プロフェッショナルなC4Iシステム用に設計されたSketch Input Method Editor(SketchIME)を作成することである。
このシステム内では、スケッチは標準化されたシンボルを推奨する低忠実なプロトタイプとして利用される。
少数ショットのドメイン適応とクラス増分学習を取り入れることで、ネットワークの新規ユーザへの適応能力は大幅に向上する。
論文 参考訳(メタデータ) (2023-11-30T05:05:38Z) - Epistemic Graph: A Plug-And-Play Module For Hybrid Representation
Learning [46.48026220464475]
人間はハイブリッド学習を示し、クロスドメイン認識のための構造化された知識をシームレスに統合したり、少量の学習のために少量のデータサンプルに依存する。
本稿では, 深部特徴と構造化知識グラフ間の情報交換を促進し, ハイブリッド学習を実現するための新しいエピステミックグラフ層(EGLayer)を提案する。
論文 参考訳(メタデータ) (2023-05-30T04:10:15Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。