論文の概要: Modeling Intensification for Sign Language Generation: A Computational
Approach
- arxiv url: http://arxiv.org/abs/2203.09679v1
- Date: Fri, 18 Mar 2022 01:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 02:33:34.696494
- Title: Modeling Intensification for Sign Language Generation: A Computational
Approach
- Title(参考訳): 手話生成のためのモデリング強化:計算的アプローチ
- Authors: Mert \.Inan, Yang Zhong, Sabit Hassan, Lorna Quandt, Malihe Alikhani
- Abstract要約: エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
- 参考スコア(独自算出の注目度): 13.57903290481737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end sign language generation models do not accurately represent the
prosody in sign language. A lack of temporal and spatial variations leads to
poor-quality generated presentations that confuse human interpreters. In this
paper, we aim to improve the prosody in generated sign languages by modeling
intensification in a data-driven manner. We present different strategies
grounded in linguistics of sign language that inform how intensity modifiers
can be represented in gloss annotations. To employ our strategies, we first
annotate a subset of the benchmark PHOENIX-14T, a German Sign Language dataset,
with different levels of intensification. We then use a supervised intensity
tagger to extend the annotated dataset and obtain labels for the remaining
portion of it. This enhanced dataset is then used to train state-of-the-art
transformer models for sign language generation. We find that our efforts in
intensification modeling yield better results when evaluated with automatic
metrics. Human evaluation also indicates a higher preference of the videos
generated using our model.
- Abstract(参考訳): エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
時間的および空間的なバリエーションの欠如は、人間のインタプリタを混乱させる品質の低いプレゼンテーションにつながる。
本稿では,データ駆動方式の強化をモデル化することで,生成した手話の韻律を改善することを目的とする。
我々は,手話の言語学に基礎を置く異なる戦略を提示する。
我々はまず,ドイツの手話データセットであるベンチマークPHOENIX-14Tのサブセットに,異なるレベルの強調を加えて注釈を付ける。
次に教師付きインテンシティタグを使用して、注釈付きデータセットを拡張し、残りの部分のラベルを取得します。
この拡張データセットは、手話生成のための最先端のトランスフォーマーモデルをトレーニングするために使用される。
自動メトリクスで評価すると、強化モデリングの取り組みがより良い結果をもたらすことがわかった。
また,人間の評価は,モデルを用いて生成した動画の好みが高いことを示している。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Augmentation Invariant Discrete Representation for Generative Spoken
Language Modeling [41.733860809136196]
生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。
提案手法は、音声信号に一連の信号変換を適用し、反復的な擬似ラベル方式を用いてモデルを最適化することに基づく。
さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T14:15:03Z) - Classification of Phonological Parameters in Sign Languages [0.0]
言語学的研究はしばしば手話を研究するために記号を構成要素に分解する。
本研究では,手話中の個々の音韻的パラメータを認識するために,一つのモデルを用いる方法を示す。
論文 参考訳(メタデータ) (2022-05-24T13:40:45Z) - Character-level Representations Improve DRS-based Semantic Parsing Even
in the Age of BERT [6.705577865528099]
文字レベルと文脈言語モデル表現を組み合わせて解析性能を向上させる。
英語では、これらの改善は個々の言語情報ソースを追加するよりも大きい。
セマンティックタグに基づく新しい解析手法により,選択したセマンティックな現象のサブセット間で,文字レベルの表現により性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-09T10:24:12Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。