論文の概要: Sign Language Translation with Iterative Prototype
- arxiv url: http://arxiv.org/abs/2308.12191v1
- Date: Wed, 23 Aug 2023 15:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:45:00.072757
- Title: Sign Language Translation with Iterative Prototype
- Title(参考訳): 反復型プロトタイプによる手話翻訳
- Authors: Huijie Yao, Wengang Zhou, Hao Feng, Hezhen Hu, Hao Zhou, Houqiang Li
- Abstract要約: IP-SLTは手話翻訳のためのシンプルだが効果的なフレームワークである
我々の考えは、人間の読みの振る舞いを模倣し、文を何度も消化して、正確な理解を得るというものである。
- 参考スコア(独自算出の注目度): 104.76761930888604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents IP-SLT, a simple yet effective framework for sign
language translation (SLT). Our IP-SLT adopts a recurrent structure and
enhances the semantic representation (prototype) of the input sign language
video via an iterative refinement manner. Our idea mimics the behavior of human
reading, where a sentence can be digested repeatedly, till reaching accurate
understanding. Technically, IP-SLT consists of feature extraction, prototype
initialization, and iterative prototype refinement. The initialization module
generates the initial prototype based on the visual feature extracted by the
feature extraction module. Then, the iterative refinement module leverages the
cross-attention mechanism to polish the previous prototype by aggregating it
with the original video feature. Through repeated refinement, the prototype
finally converges to a more stable and accurate state, leading to a fluent and
appropriate translation. In addition, to leverage the sequential dependence of
prototypes, we further propose an iterative distillation loss to compress the
knowledge of the final iteration into previous ones. As the autoregressive
decoding process is executed only once in inference, our IP-SLT is ready to
improve various SLT systems with acceptable overhead. Extensive experiments are
conducted on public benchmarks to demonstrate the effectiveness of the IP-SLT.
- Abstract(参考訳): 本稿では,手話翻訳のための簡易かつ効果的なフレームワークであるIP-SLTを提案する。
我々のIP-SLTは繰り返し構造を採用し、反復的洗練手法により入力手話ビデオの意味表現(プロトタイプ)を強化する。
我々の考えは、正確な理解に達するまで、文章を繰り返し消化できる人間の読書の振る舞いを模倣している。
技術的には、IP-SLTは特徴抽出、プロトタイプの初期化、反復プロトタイプの改良から構成される。
初期化モジュールは、特徴抽出モジュールによって抽出された視覚特徴に基づいて初期プロトタイプを生成する。
そして、繰り返し精錬モジュールは、クロスアテンション機構を利用して、元のビデオ機能で集約して以前のプロトタイプを精錬する。
繰り返し改良を重ねることで、プロトタイプは最終的により安定で正確な状態に収束し、滑らかで適切な翻訳に繋がる。
さらに, プロトタイプの逐次依存性を活用するため, 最終段階の知識を前段階に圧縮するために, 反復蒸留損失を提案する。
自動回帰復号処理は推論で1回だけ実行されるため、IP-SLTは様々なSLTシステムを改善する準備が整っている。
IP-SLTの有効性を示すために、公開ベンチマークで大規模な実験を行った。
関連論文リスト
- Advancing Interpretability in Text Classification through Prototype Learning [1.9526476410335776]
ProtoLensはプロトタイプベースのモデルで、テキスト分類のための詳細なサブ文レベルの解釈機能を提供する。
ProtoLensは、Prototype-aware Span extractモジュールを使用して、関連するテキストスパンを識別する。
ProtoLensは、競争精度を維持しながら解釈可能な予測を提供する。
論文 参考訳(メタデータ) (2024-10-23T03:53:46Z) - Autoregressive Sign Language Production: A Gloss-Free Approach with Discrete Representations [8.254354613959224]
グロスフリー手話生成(SLP)は、手話文を直接手話に翻訳する。
本稿では、ベクトル量子化を利用して、符号ポーズ列から離散表現を導出する新しいSLP手法を提案する。
論文 参考訳(メタデータ) (2023-09-21T15:46:01Z) - Evolving Semantic Prototype Improves Generative Zero-Shot Learning [73.07035277030573]
ゼロショット学習(ZSL)では、生成法は事前に定義されたセマンティックプロトタイプに基づいてクラス関連サンプル特徴を合成する。
各クラスの事前定義されたセマンティックプロトタイプは、実際のセマンティックプロトタイプと正確に一致しない。
本稿では,経験的に定義された意味的プロトタイプと,クラス関連特徴合成のための実際のプロトタイプを整合させる動的意味的プロトタイプ(DSP)法を提案する。
論文 参考訳(メタデータ) (2023-06-12T08:11:06Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Continuous 3D Multi-Channel Sign Language Production via Progressive
Transformers and Mixture Density Networks [37.679114155300084]
サイン言語生産(SLP)は、Deafコミュニティによって真に理解できるサインの連続的な調音と完全な形態の両方を具現化しなければならない。
本稿では,音声言語文から連続した3次元手話ポーズシーケンスへ変換する最初のSLPモデルであるプログレッシブトランスフォーマーアーキテクチャを提案する。
予測ドリフトを低減するための広範なデータ拡張手法と、敵対的なトレーニング体制と、現実的で表現力のあるサインポーズシーケンスを生成するMixture Density Network (MDN) の定式化を紹介します。
論文 参考訳(メタデータ) (2021-03-11T22:11:17Z) - Learning Sparse Prototypes for Text Generation [120.38555855991562]
プロトタイプ駆動のテキスト生成は、トレーニングコーパス全体の保存とインデックスを必要とするため、テスト時に非効率である。
本稿では,言語モデリング性能を向上するスパースなプロトタイプサポートセットを自動的に学習する新しい生成モデルを提案する。
実験では,1000倍のメモリ削減を実現しつつ,従来のプロトタイプ駆動型言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-06-29T19:41:26Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Progressive Transformers for End-to-End Sign Language Production [43.45785951443149]
自動手話生成(SLP)の目的は、音声言語を手話ビデオの連続ストリームに変換することである。
主に孤立したSLPに関する以前の研究は、完全な符号列の連続領域により適したアーキテクチャの必要性を示している。
本稿では,手話を表す音声文から連続的な3Dスケルトンへの変換が可能な新しいアーキテクチャであるProgressive Transformersを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。