論文の概要: StrokeNet: Unveiling How to Learn Fine-Grained Interactions in Online Handwritten Stroke Classification
- arxiv url: http://arxiv.org/abs/2512.06290v1
- Date: Sat, 06 Dec 2025 04:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.286895
- Title: StrokeNet: Unveiling How to Learn Fine-Grained Interactions in Online Handwritten Stroke Classification
- Title(参考訳): StrokeNet: オンライン手書きストローク分類における細粒度インタラクションの学習方法
- Authors: Yiheng Huang, Shuang She, Zewei Wei, Jianmin Lin, Ming Yang, Wenyin Liu,
- Abstract要約: ストローク分類は、書き方、あいまいな内容、動的書き方の違いにより、依然として困難である。
我々の観察では、ストローク相互作用は典型的に局所化されていることが示されており、既存のディープラーニング手法ではそのようなきめ細かい関係を捉えるのが困難である。
基準点を選択して逐次順序でストロークをきめ細かな方法で表現することにより、この問題を効果的に解決することができる。
- 参考スコア(独自算出の注目度): 9.447865895922982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stroke classification remains challenging due to variations in writing style, ambiguous content, and dynamic writing positions. The core challenge in stroke classification is modeling the semantic relationships between strokes. Our observations indicate that stroke interactions are typically localized, making it difficult for existing deep learning methods to capture such fine-grained relationships. Although viewing strokes from a point-level perspective can address this issue, it introduces redundancy. However, by selecting reference points and using their sequential order to represent strokes in a fine-grained manner, this problem can be effectively solved. This insight inspired StrokeNet, a novel network architecture encoding strokes as reference pair representations (points + feature vectors), where reference points enable spatial queries and features mediate interaction modeling. Specifically, we dynamically select reference points for each stroke and sequence them, employing an Inline Sequence Attention (ISA) module to construct contextual features. To capture spatial feature interactions, we devised a Cross-Ellipse Query (CEQ) mechanism that clusters reference points and extracts features across varying spatial scales. Finally, a joint optimization framework simultaneously predicts stroke categories via reference points regression and adjacent stroke semantic transition modeling through an Auxiliary Branch (Aux-Branch). Experimental results show that our method achieves state-of-the-art performance on multiple public online handwritten datasets. Notably, on the CASIA-onDo dataset, the accuracy improves from 93.81$\%$ to 95.54$\%$, demonstrating the effectiveness and robustness of our approach.
- Abstract(参考訳): ストローク分類は、書き方、あいまいな内容、動的書き方の違いにより、依然として困難である。
脳卒中分類における中核的な課題は、脳卒中間の意味的関係をモデル化することである。
我々の観察では、ストローク相互作用は典型的に局所化されていることが示されており、既存のディープラーニング手法ではそのようなきめ細かい関係を捉えるのが困難である。
ポイントレベルの視点からストロークを見ることはこの問題に対処できるが、冗長性を導入する。
しかし、基準点を選択して逐次順序でストロークを表現することで、この問題を効果的に解決することができる。
この洞察は、参照対表現(ポイント + 特徴ベクトル)としてストロークをエンコードする新しいネットワークアーキテクチャであるStrokeNetに影響を与えた。
具体的には、各ストロークの参照ポイントを動的に選択し、それらをシーケンスし、インラインシーケンスアテンション(ISA)モジュールを使用してコンテキスト特徴を構築する。
空間的特徴の相互作用を捉えるために,参照点をクラスタ化し,様々な空間スケールで特徴を抽出するCross-Ellipse Query (CEQ) 機構を開発した。
最後に、共同最適化フレームワークは、基準点回帰と、補助分岐(Aux-Branch)を介して隣接するストローク意味遷移モデリングにより、同時にストロークカテゴリを予測する。
実験結果から,本手法は複数のオンライン手書きデータセットに対して,最先端の性能を達成できることが示唆された。
特に、CASIA-onDoデータセットでは、精度が93.81$\%$から95.54$\%$に向上し、我々のアプローチの有効性と堅牢性を示している。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation [4.476845464695504]
3Dインスタンスセグメンテーションは、シーン内のオブジェクトインスタンスのセットを予測し、対応するセマンティックラベルを持つバイナリフォアグラウンドマスクとして表現することを目的としている。
textbfRelation3D: Enhancing Relation Modeling for Point Instance, 具体的には、適応的なスーパーポイントアグリゲーションモジュールと対照的な学習誘導型スーパーポイントリファインメントモジュールを導入し、スーパーポイント機能(シーン機能)をより良く表現する。
我々の関係認識型自己アテンション機構は、位置関係と幾何学的関係を自己アテンション機構に組み込むことで、クエリ間の関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2025-06-22T03:48:19Z) - SEP-GCN: Leveraging Similar Edge Pairs with Temporal and Spatial Contexts for Location-Based Recommender Systems [0.0]
SEP-GCNは、文脈的に類似した相互作用エッジのペアから学習する新しいグラフベースのレコメンデーションフレームワークである。
SEP-GCNは、類似の時間的ウィンドウや地理的近接で発生するエッジペアを識別することにより、コンテキスト的類似性リンクでユーザ-itemグラフを拡張する。
ベンチマークデータセットの実験では、SEP-GCNは予測精度とロバスト性の両方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-19T03:48:30Z) - Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。
textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。
各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文 参考訳(メタデータ) (2025-06-02T08:13:32Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks [31.76016966100244]
StrokeNetは、きめ細かいストロークをキャプチャすることで、テキストを効果的に検出する。
テキスト領域を一連のポイントや長方形のボックスで表現する既存のアプローチとは異なり、各テキストインスタンスのストロークを直接ローカライズする。
論文 参考訳(メタデータ) (2021-11-23T08:26:42Z) - Temporally-Consistent Surface Reconstruction using Metrically-Consistent
Atlases [131.50372468579067]
そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。
我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応性を確立することができる。
当社のアプローチは、いくつかの挑戦的なデータセットにおいて、最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-11-12T17:48:25Z) - Modelling Neighbor Relation in Joint Space-Time Graph for Video
Correspondence Learning [53.74240452117145]
本稿では、ラベルなしビデオから信頼できる視覚対応を学習するための自己教師付き手法を提案する。
接続時空間グラフでは,ノードがフレームからサンプリングされたグリッドパッチであり,2種類のエッジによってリンクされる。
学習した表現は、様々な視覚的タスクにおいて最先端の自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2021-09-28T05:40:01Z) - PointDSC: Robust Point Cloud Registration using Deep Spatial Consistency [38.93610732090426]
本稿では,空間的整合性を明確に組み込んだ新しいディープニューラルネットワークであるPointDSCを提案する。
本手法は,いくつかの実世界のデータセットにおいて,最先端の手作りおよび学習に基づく異常者拒絶アプローチを上回っている。
論文 参考訳(メタデータ) (2021-03-09T14:56:08Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。