論文の概要: Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading
- arxiv url: http://arxiv.org/abs/2003.03983v1
- Date: Mon, 9 Mar 2020 09:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:43:49.019150
- Title: Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading
- Title(参考訳): sequence-to-sequence lip-readingにおける疑似畳み込み政策勾配
- Authors: Mingshuang Luo, Shuang Yang, Shiguang Shan, Xilin Chen
- Abstract要約: 唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 96.48553941812366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip-reading aims to infer the speech content from the lip movement sequence
and can be seen as a typical sequence-to-sequence (seq2seq) problem which
translates the input image sequence of lip movements to the text sequence of
the speech content. However, the traditional learning process of seq2seq models
always suffers from two problems: the exposure bias resulted from the strategy
of "teacher-forcing", and the inconsistency between the discriminative
optimization target (usually the cross-entropy loss) and the final evaluation
metric (usually the character/word error rate). In this paper, we propose a
novel pseudo-convolutional policy gradient (PCPG) based method to address these
two problems. On the one hand, we introduce the evaluation metric (refers to
the character error rate in this paper) as a form of reward to optimize the
model together with the original discriminative target. On the other hand,
inspired by the local perception property of convolutional operation, we
perform a pseudo-convolutional operation on the reward and loss dimension, so
as to take more context around each time step into account to generate a robust
reward and loss for the whole optimization. Finally, we perform a thorough
comparison and evaluation on both the word-level and sentence-level benchmarks.
The results show a significant improvement over other related methods, and
report either a new state-of-the-art performance or a competitive accuracy on
all these challenging benchmarks, which clearly proves the advantages of our
approach.
- Abstract(参考訳): lip-readingは、唇運動シーケンスから音声コンテンツの推測を目的としており、唇運動の入力画像シーケンスを音声コンテンツのテキストシーケンスに変換する典型的なsequence-to-sequence(seq2seq)問題と見なすことができる。
しかし、Seq2seqモデルの伝統的な学習プロセスには、"教師強制"戦略による露光バイアスと、識別的最適化目標(通常はクロスエントロピー損失)と最終評価指標(通常は文字/単語の誤り率)の矛盾という2つの問題がある。
本稿では,これら2つの問題に対処するために,新しいpseudo-convolutional policy gradient (pcpg) 法を提案する。
本稿では,評価指標(本論文の文字誤り率を参照)を,元の判別対象と共にモデルを最適化するための報酬の形式として導入する。
一方,畳み込み操作の局所的な知覚特性に触発されて,報酬と損失次元の擬似畳み込み操作を行い,各時間に関する文脈を考慮に入れ,最適化全体に対してロバストな報酬と損失を生成する。
最後に,単語レベルのベンチマークと文レベルのベンチマークを徹底的に比較,評価する。
その結果、他の手法よりも大幅に改善され、新たな最先端のパフォーマンスや、これらの挑戦的なベンチマークの競合精度が報告され、このアプローチの利点が明らかに証明された。
関連論文リスト
- Generalization bounds for regression and classification on adaptive covering input domains [1.4141453107129398]
一般化誤差の上限となる一般化境界に着目する。
分類タスクの場合、対象関数を1ホット、ピースワイド定数関数として扱い、誤差測定に0/1ロスを用いる。
論文 参考訳(メタデータ) (2024-07-29T05:40:08Z) - Non-Autoregressive Sentence Ordering [22.45972496989434]
文間の相互依存を探索し,各位置の文を並列に予測する,textitNAON と呼ばれる新しい非自己回帰順序付けネットワークを提案する。
提案手法は,複数の一般的なデータセットに対して広範囲に実験を行い,提案手法が自己回帰的アプローチよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-10-19T10:57:51Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z) - Fact-aware Sentence Split and Rephrase with Permutation Invariant
Training [93.66323661321113]
Sentence Split と Rephrase は、複雑な文をいくつかの単純な文に分解し、その意味を保存することを目的としている。
従来の研究では、パラレル文対からのSeq2seq学習によってこの問題に対処する傾向があった。
本稿では,この課題に対するSeq2seq学習における順序分散の効果を検証するために,置換訓練を導入する。
論文 参考訳(メタデータ) (2020-01-16T07:30:19Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。