論文の概要: ViSketch-GPT: Collaborative Multi-Scale Feature Extraction for Sketch Recognition and Generation
- arxiv url: http://arxiv.org/abs/2503.22374v1
- Date: Fri, 28 Mar 2025 12:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:22.470055
- Title: ViSketch-GPT: Collaborative Multi-Scale Feature Extraction for Sketch Recognition and Generation
- Title(参考訳): ViSketch-GPT: スケッチ認識と生成のための協調的マルチスケール特徴抽出
- Authors: Giulio Federico, Giuseppe Amato, Fabio Carrara, Claudio Gennaro, Marco Di Benedetto,
- Abstract要約: ViSketch-GPTは、マルチスケールコンテキスト抽出アプローチによって課題に対処するために設計された新しいアルゴリズムである。
このモデルは複雑な詳細を複数のスケールで捉え、アンサンブルのようなメカニズムで組み合わせる。
ViSketch-GPTの有効性は、QuickDrawデータセットの広範な実験を通じて検証される。
- 参考スコア(独自算出の注目度): 7.999454304974351
- License:
- Abstract: Understanding the nature of human sketches is challenging because of the wide variation in how they are created. Recognizing complex structural patterns improves both the accuracy in recognizing sketches and the fidelity of the generated sketches. In this work, we introduce ViSketch-GPT, a novel algorithm designed to address these challenges through a multi-scale context extraction approach. The model captures intricate details at multiple scales and combines them using an ensemble-like mechanism, where the extracted features work collaboratively to enhance the recognition and generation of key details crucial for classification and generation tasks. The effectiveness of ViSketch-GPT is validated through extensive experiments on the QuickDraw dataset. Our model establishes a new benchmark, significantly outperforming existing methods in both classification and generation tasks, with substantial improvements in accuracy and the fidelity of generated sketches. The proposed algorithm offers a robust framework for understanding complex structures by extracting features that collaborate to recognize intricate details, enhancing the understanding of structures like sketches and making it a versatile tool for various applications in computer vision and machine learning.
- Abstract(参考訳): 人間のスケッチの性質を理解することは、その作り方に大きなバリエーションがあるため、難しい。
複雑な構造パターンを認識することは、スケッチを認識する際の精度と、生成されたスケッチの忠実さの両方を改善する。
本研究では,これらの課題に対処する新しいアルゴリズムであるViSketch-GPTを紹介する。
このモデルは、複数のスケールで複雑な詳細をキャプチャし、それらをアンサンブルのようなメカニズムで組み合わせ、抽出された特徴を協調して働き、分類と生成に不可欠な重要な詳細の認識と生成を強化する。
ViSketch-GPTの有効性は、QuickDrawデータセットの広範な実験を通じて検証される。
提案モデルでは,分類タスクと生成タスクの両方において既存の手法を著しく上回り,精度とスケッチの忠実度を大幅に向上した新しいベンチマークを構築している。
提案アルゴリズムは、複雑な詳細を認識するために協調して機能を取り出すことにより、複雑な構造を理解するための堅牢なフレームワークを提供する。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - Motif Guided Graph Transformer with Combinatorial Skeleton Prototype Learning for Skeleton-Based Person Re-Identification [60.939250172443586]
3Dスケルトンデータによる人物再識別(re-ID)は多くのシナリオにおいて重要な価値を持つ課題である。
既存の骨格に基づく手法は、典型的には全ての関節間の仮想運動関係を仮定し、学習に平均的な関節またはシーケンス表現を採用する。
本稿では,Y Combinatorial skeleton prototype learning (MoCos)を用いた汎用Motifガイドグラフトランスフォーマを提案する。
MoCosは、構造特異的で歩行関連のある身体関係とスケルトングラフの特徴を利用して、人物のre-IDに効果的な骨格表現を学習する。
論文 参考訳(メタデータ) (2024-12-12T08:13:29Z) - Retrieval-guided Cross-view Image Synthesis [3.7477511412024573]
クロスビュー画像合成は、信頼性の高い対応を確立する上で大きな課題となる。
本稿では,検索手法が効果的なクロスビュー画像合成を促進する方法を再定義する検索誘導フレームワークを提案する。
我々の研究は、情報検索と合成タスクを橋渡しし、検索技術が複雑なドメイン間合成の課題にどのように対処できるかについての洞察を提供する。
論文 参考訳(メタデータ) (2024-11-29T07:04:44Z) - Discriminative Anchor Learning for Efficient Multi-view Clustering [59.11406089896875]
マルチビュークラスタリング(DALMC)のための識別的アンカー学習を提案する。
元のデータセットに基づいて、識別的なビュー固有の特徴表現を学習する。
これらの表現に基づいて異なるビューからアンカーを構築することで、共有アンカーグラフの品質が向上します。
論文 参考訳(メタデータ) (2024-09-25T13:11:17Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Sketch Input Method Editor: A Comprehensive Dataset and Methodology for Systematic Input Recognition [14.667745062352148]
本研究の目的は,プロフェッショナルなC4Iシステム用に設計されたSketch Input Method Editor(SketchIME)を作成することである。
このシステム内では、スケッチは標準化されたシンボルを推奨する低忠実なプロトタイプとして利用される。
少数ショットのドメイン適応とクラス増分学習を取り入れることで、ネットワークの新規ユーザへの適応能力は大幅に向上する。
論文 参考訳(メタデータ) (2023-11-30T05:05:38Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Epistemic Graph: A Plug-And-Play Module For Hybrid Representation
Learning [46.48026220464475]
人間はハイブリッド学習を示し、クロスドメイン認識のための構造化された知識をシームレスに統合したり、少量の学習のために少量のデータサンプルに依存する。
本稿では, 深部特徴と構造化知識グラフ間の情報交換を促進し, ハイブリッド学習を実現するための新しいエピステミックグラフ層(EGLayer)を提案する。
論文 参考訳(メタデータ) (2023-05-30T04:10:15Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。