論文の概要: Sketch Input Method Editor: A Comprehensive Dataset and Methodology for
Systematic Input Recognition
- arxiv url: http://arxiv.org/abs/2311.18254v1
- Date: Thu, 30 Nov 2023 05:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:52:03.794104
- Title: Sketch Input Method Editor: A Comprehensive Dataset and Methodology for
Systematic Input Recognition
- Title(参考訳): Sketch Input Method Editor:システム入力認識のための包括的データセットと方法論
- Authors: Guangming Zhu, Siyuan Wang, Qing Cheng, Kelong Wu, Hao Li, Liang Zhang
- Abstract要約: 本研究の目的は,プロフェッショナルなC4Iシステム用に設計されたSketch Input Method Editor(SketchIME)を作成することである。
このシステム内では、スケッチは標準化されたシンボルを推奨する低忠実なプロトタイプとして利用される。
少数ショットのドメイン適応とクラス増分学習を取り入れることで、ネットワークの新規ユーザへの適応能力は大幅に向上する。
- 参考スコア(独自算出の注目度): 15.542174731159433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent surge in the use of touchscreen devices, free-hand sketching
has emerged as a promising modality for human-computer interaction. While
previous research has focused on tasks such as recognition, retrieval, and
generation of familiar everyday objects, this study aims to create a Sketch
Input Method Editor (SketchIME) specifically designed for a professional C4I
system. Within this system, sketches are utilized as low-fidelity prototypes
for recommending standardized symbols in the creation of comprehensive
situation maps. This paper also presents a systematic dataset comprising 374
specialized sketch types, and proposes a simultaneous recognition and
segmentation architecture with multilevel supervision between recognition and
segmentation to improve performance and enhance interpretability. By
incorporating few-shot domain adaptation and class-incremental learning, the
network's ability to adapt to new users and extend to new task-specific classes
is significantly enhanced. Results from experiments conducted on both the
proposed dataset and the SPG dataset illustrate the superior performance of the
proposed architecture. Our dataset and code are publicly available at
https://github.com/Anony517/SketchIME.
- Abstract(参考訳): 近年のタッチスクリーンデバイスの使用の増加に伴い、フリーハンドのスケッチは人間とコンピュータのインタラクションにとって有望なモダリティとして現れている。
これまでの研究は,日常の身近な物体の認識,検索,生成といった課題に焦点を当ててきたが,本研究の目的はプロのc4iシステム用に設計されたスケッチ入力方法エディタ(sketchime)の作成である。
このシステムでは、スケッチを低忠実度プロトタイプとして利用し、包括的な状況地図の作成において標準化されたシンボルを推奨する。
また,374種類の特殊スケッチ型からなる体系的データセットを提案し,認識とセグメンテーションのマルチレベル管理による同時認識とセグメンテーションアーキテクチャを提案し,性能の向上と解釈可能性の向上を図る。
少数ショットのドメイン適応とクラス増分学習を取り入れることで、ネットワークの新規ユーザへの適応とタスク固有のクラスへの拡張が大幅に向上する。
提案したデータセットとSPGデータセットの両方で行った実験の結果は,提案アーキテクチャの優れた性能を示している。
データセットとコードはhttps://github.com/Anony517/SketchIME.comで公開されています。
関連論文リスト
- Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive
Regularizer Learning [13.08779945306727]
現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。
本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。
論文 参考訳(メタデータ) (2022-05-11T00:34:27Z) - Learning Semantics for Visual Place Recognition through Multi-Scale
Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。
さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文 参考訳(メタデータ) (2022-01-24T14:13:12Z) - RSBNet: One-Shot Neural Architecture Search for A Backbone Network in
Remote Sensing Image Recognition [43.95699860302204]
本稿では、シーン分類、土地被覆分類、オブジェクト検出を含むRSI認識タスクにおけるバックボーンアーキテクチャの新しい設計パラダイムを提案する。
重量共有戦略と進化的アルゴリズムに基づく新しいワンショットアーキテクチャ探索フレームワークRSBNetを提案する。
評価課題の異なる5つのベンチマークデータセットを用いて大規模な実験を行い,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2021-12-07T02:44:16Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Multisensory Learning Architecture for Rotation-invariant Object
Recognition [0.0]
本研究では,iCubロボットを用いて構築した新しいデータセットを用いて,物体認識のための多感覚機械学習アーキテクチャを提案する。
提案アーキテクチャでは、畳み込みニューラルネットワークを用いて、グレースケールカラー画像の表現(すなわち特徴)と深度データを処理するための多層パーセプトロンアルゴリズムを組み合わせる。
論文 参考訳(メタデータ) (2020-09-14T09:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。