論文の概要: MixSignGraph: A Sign Sequence is Worth Mixed Graphs of Nodes
- arxiv url: http://arxiv.org/abs/2504.12020v1
- Date: Wed, 16 Apr 2025 12:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:30.097861
- Title: MixSignGraph: A Sign Sequence is Worth Mixed Graphs of Nodes
- Title(参考訳): MixSignGraph: 署名シーケンスはノードの混合グラフである
- Authors: Shiwei Gan, Yafeng Yin, Zhiwei Jiang, Hongkai Wen, Lei Xie, Sanglu Lu,
- Abstract要約: 混合グラフの集合として手話列を表すMixSignGraphを紹介する。
LSGモジュールは1フレーム内のフレーム内クロスリージョン特徴の相関関係を学習する。
TSGモジュールは、隣接するフレーム間のフレーム間クロスリージョン機能の相互作用を追跡する。
HSGモジュールはフレームの異なる粒度特徴写像から同じ領域の特徴を集約する。
- 参考スコア(独自算出の注目度): 22.71156540352475
- License:
- Abstract: Recent advances in sign language research have benefited from CNN-based backbones, which are primarily transferred from traditional computer vision tasks (\eg object identification, image recognition). However, these CNN-based backbones usually excel at extracting features like contours and texture, but may struggle with capturing sign-related features. In fact, sign language tasks require focusing on sign-related regions, including the collaboration between different regions (\eg left hand region and right hand region) and the effective content in a single region. To capture such region-related features, we introduce MixSignGraph, which represents sign sequences as a group of mixed graphs and designs the following three graph modules for feature extraction, \ie Local Sign Graph (LSG) module, Temporal Sign Graph (TSG) module and Hierarchical Sign Graph (HSG) module. Specifically, the LSG module learns the correlation of intra-frame cross-region features within one frame, \ie focusing on spatial features. The TSG module tracks the interaction of inter-frame cross-region features among adjacent frames, \ie focusing on temporal features. The HSG module aggregates the same-region features from different-granularity feature maps of a frame, \ie focusing on hierarchical features. In addition, to further improve the performance of sign language tasks without gloss annotations, we propose a simple yet counter-intuitive Text-driven CTC Pre-training (TCP) method, which generates pseudo gloss labels from text labels for model pre-training. Extensive experiments conducted on current five public sign language datasets demonstrate the superior performance of the proposed model. Notably, our model surpasses the SOTA models on multiple sign language tasks across several datasets, without relying on any additional cues.
- Abstract(参考訳): 近年の手話研究の進歩はCNNベースのバックボーンの恩恵を受けている。
しかしながら、これらのCNNベースのバックボーンは通常、輪郭やテクスチャといった特徴の抽出に長けているが、手話に関連した特徴の取得に苦労する可能性がある。
実際、手話タスクは、異なる地域(左利き地域と右利き地域)と単一の領域における効果的なコンテンツとの協調を含む、手話に関連する領域に焦点を当てる必要がある。
このような地域的特徴を捉えるため,MixSignGraphを導入し,手話列を混合グラフの集合として表現し,特徴抽出用のグラフモジュール,Shaie Local Sign Graph (LSG) モジュール,Temporal Sign Graph (TSG) モジュール,Hierarchical Sign Graph (HSG) モジュールの3つを設計する。
具体的には,LSGモジュールは,空間的特徴に着目した一フレーム内のフレーム内クロスリージョン特徴の相関関係を学習する。
TSGモジュールは、隣接するフレーム間のフレーム間クロスリージョン機能の相互作用を追跡する。
HSGモジュールは、フレームの異なる粒度特徴写像から同じ領域の特徴を集約する。
さらに,手話タスクの性能をグロスアノテーションを使わずに向上させるため,モデル事前学習のためのテキストラベルから擬似グロスラベルを生成する,単純なテキスト駆動型CTC事前学習法を提案する。
現在5つの公開手話データセットで実施されている大規模な実験は、提案モデルの優れた性能を示すものである。
特に、我々のモデルは、追加の手がかりに頼ることなく、複数のデータセットにまたがる複数の手話タスクのSOTAモデルを上回る。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - UniGLM: Training One Unified Language Model for Text-Attributed Graph Embedding [31.464021556351685]
統一グラフ言語モデル(Unified Graph Language Model、UniGLM)は、グラフ埋め込みモデルであり、ドメイン内およびドメイン間TAGの両方によく一般化する。
UniGLMには、構造的に類似したノードを特定するための適応的な正のサンプル選択技術と、トレーニングを加速するために考案された遅延コントラストモジュールが含まれている。
論文 参考訳(メタデータ) (2024-06-17T19:45:21Z) - UniGraph: Learning a Unified Cross-Domain Foundation Model for Text-Attributed Graphs [30.635472655668078]
Text-Attributed Graphs (TAG) は、さまざまなドメインにまたがる見えないグラフやタスクに一般化することができる。
本稿では,言語モデル (LM) とグラフニューラルネットワーク (GNN) をバックボーンネットワークとして,新しいケースドアーキテクチャを提案する。
本モデルの有効性を,未確認グラフの自己教師型表現学習,少数ショットインコンテキスト転送,ゼロショット転送で実証する。
論文 参考訳(メタデータ) (2024-02-21T09:06:31Z) - Linguistically Motivated Sign Language Segmentation [51.06873383204105]
個々の記号へのセグメンテーションとフレーズへのセグメンテーションという2種類のセグメンテーションを考える。
本手法は手話コーパスで観察される言語的手がかりによって動機付けられている。
私たちは、主要なIOタグ付けスキームをBIOタグに置き換えて、継続的な署名を可能にします。
論文 参考訳(メタデータ) (2023-10-21T10:09:34Z) - Weakly Supervised Semantic Segmentation by Knowledge Graph Inference [11.056545020611397]
本稿では、Wakly Supervised Semantic (WSSS)を強化するグラフ推論に基づくアプローチを提案する。
本研究の目的は,マルチラベル分類とセグメンテーションネットワークの段階を同時に拡張することで,WSSSを全体的改善することである。
PASCAL VOC 2012およびMS-COCOデータセット上でWSSSの最先端性能を達成した。
論文 参考訳(メタデータ) (2023-09-25T11:50:19Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Sign Language Translation with Hierarchical Spatio-TemporalGraph Neural
Network [6.623802929157273]
手話翻訳(SLT)は、手話の視覚的内容から音声言語のテキストを生成する。
本稿では,これらの手話の特徴を階層時間グラフ表現として定式化する。
階層型階層時間グラフニューラルネットワーク(HSTG-NN)と呼ばれる新しいディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-14T07:02:28Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for
Sign Language Translation [101.6042317204022]
手話翻訳(SLT)は、手話のシーケンスをテキストベースの自然言語文に解釈することを目的としている。
既存のSLTモデルは通常、手話の視覚的特徴をフレーム的に表現する。
我々は,TSPNetと呼ばれる時間的意味ピラミッドネットワークを用いて,新しい階層的な手話ビデオ特徴学習手法を開発した。
論文 参考訳(メタデータ) (2020-10-12T05:58:09Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。