論文の概要: Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization
- arxiv url: http://arxiv.org/abs/2509.04745v1
- Date: Fri, 05 Sep 2025 01:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.447625
- Title: Phonological Representation Learning for Isolated Signs Improves Out-of-Vocabulary Generalization
- Title(参考訳): 孤立符号の音韻表現学習は語彙外一般化を改善する
- Authors: Lee Kezar, Zed Sehyr, Jesse Thomason,
- Abstract要約: ベクトル量子化は、離散的なトークンのような表現を学ぶための有望なアプローチである。
学習単位が語彙外性能を阻害する急激な相関を捉えているかどうかは評価されていない。
この研究は、言語的に動機づけられた偏見が手話の学習表現の一般化をいかに改善するかを定量的に分析する。
- 参考スコア(独自算出の注目度): 9.324118291686906
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language datasets are often not representative in terms of vocabulary, underscoring the need for models that generalize to unseen signs. Vector quantization is a promising approach for learning discrete, token-like representations, but it has not been evaluated whether the learned units capture spurious correlations that hinder out-of-vocabulary performance. This work investigates two phonological inductive biases: Parameter Disentanglement, an architectural bias, and Phonological Semi-Supervision, a regularization technique, to improve isolated sign recognition of known signs and reconstruction quality of unseen signs with a vector-quantized autoencoder. The primary finding is that the learned representations from the proposed model are more effective for one-shot reconstruction of unseen signs and more discriminative for sign identification compared to a controlled baseline. This work provides a quantitative analysis of how explicit, linguistically-motivated biases can improve the generalization of learned representations of sign language.
- Abstract(参考訳): 記号言語データセットは、しばしば語彙の観点からは代表的ではなく、目に見えない記号に一般化するモデルの必要性を暗示している。
ベクトル量子化は離散的なトークンのような表現を学習する上で有望なアプローチであるが、学習単位が語彙外性能を妨げる突発的な相関を捉えているかどうかは評価されていない。
本研究では,正規化手法であるパラメータ・ディスタングルメントと,ベクトル量子化オートエンコーダを用いた未知の符号の分離認識と再構成品質向上のためのフォノロジー・セミスーパービジョンの2つの音韻的帰納バイアスについて検討する。
第一の発見は,提案モデルから学習した表現が,未知の符号のワンショット再構成に有効であり,制御ベースラインよりも識別に優れていることである。
この研究は、言語的に動機づけられた偏見が手話の学習表現の一般化をいかに改善するかを定量的に分析する。
関連論文リスト
- Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Sign Languague Recognition without frame-sequencing constraints: A proof
of concept on the Argentinian Sign Language [42.27617228521691]
本稿では,様々な特徴量に基づいてサブ分類器を結合した手話分類のための一般化確率モデルを提案する。
提案したモデルは、アルゼンチン手話データセットで97%の精度を達成した。
論文 参考訳(メタデータ) (2023-10-26T14:47:11Z) - Multi-Dialectal Representation Learning of Sinitic Phonology [0.0]
Sinitic Historical Phonologyでは、機械学習の恩恵を受けることができる注目すべきタスクとして、方言の比較と原語体系の再構築がある。
そこで本研究では,Sinite 音節の多言語表現を得るためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-30T02:37:25Z) - Improving Sign Recognition with Phonology [8.27285154257448]
我々は、アメリカ手話音声学の研究から得られた知見を用いて、手話認識のためのモデルを訓練する。
我々は、サインだけでなく、その音韻特性を予測するために、シングルサインを生成するシグナーのポーズ推定を行うISLRモデルを訓練する。
これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させる。
論文 参考訳(メタデータ) (2023-02-11T18:51:23Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Learning De-identified Representations of Prosody from Raw Audio [7.025418443146435]
コントラッシブな自己教師付き信号を用いて生音声から不特定韻律表現を学習する手法を提案する。
我々は韻律の自然な構造を利用して音節情報を最小化し、韻律を話者表現から切り離す。
論文 参考訳(メタデータ) (2021-07-17T14:37:25Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。