論文の概要: Exploiting the Logits: Joint Sign Language Recognition and
Spell-Correction
- arxiv url: http://arxiv.org/abs/2007.00603v1
- Date: Wed, 1 Jul 2020 16:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 22:27:01.454232
- Title: Exploiting the Logits: Joint Sign Language Recognition and
Spell-Correction
- Title(参考訳): ログの爆発:共同手話認識とスペル補正
- Authors: Christina Runkel, Stefan Dorenkamp, Hartmut Bauermeister, Michael
Moeller
- Abstract要約: ドイツ語手話ビデオの自動認識について検討する。
ビデオ解析のための最新のディープラーニングアーキテクチャは、約75%の文字精度を実現することができる。
本稿では,スペル訂正のための畳み込みニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 6.669026953610727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning techniques have excelled in the automatic semantic analysis
of images, reaching human-level performances on challenging benchmarks. Yet,
the semantic analysis of videos remains challenging due to the significantly
higher dimensionality of the input data, respectively, the significantly higher
need for annotated training examples. By studying the automatic recognition of
German sign language videos, we demonstrate that on the relatively scarce
training data of 2.800 videos, modern deep learning architectures for video
analysis (such as ResNeXt) along with transfer learning on large gesture
recognition tasks, can achieve about 75% character accuracy. Considering that
this leaves us with a probability of under 25% that a 5 letter word is spelled
correctly, spell-correction systems are crucial for producing readable outputs.
The contribution of this paper is to propose a convolutional neural network for
spell-correction that expects the softmax outputs of the character recognition
network (instead of a misspelled word) as an input. We demonstrate that purely
learning on softmax inputs in combination with scarce training data yields
overfitting as the network learns the inputs by heart. In contrast, training
the network on several variants of the logits of the classification output i.e.
scaling by a constant factor, adding of random noise, mixing of softmax and
hardmax inputs or purely training on hardmax inputs, leads to better
generalization while benefitting from the significant information hidden in
these outputs (that have 98% top-5 accuracy), yielding a readable text despite
the comparably low character accuracy.
- Abstract(参考訳): 機械学習技術は画像の自動意味解析に優れており、挑戦するベンチマーク上で人間レベルのパフォーマンスに達する。
しかし,映像の意味分析は,入力データの次元が著しく高く,注釈付き学習例の必要性が著しく高いため,依然として課題となっている。
ドイツ語手話ビデオの自動認識について検討した結果,2.800ビデオの比較的少ない訓練データでは,映像解析のための最新のディープラーニングアーキテクチャ(resnextなど)と,大規模なジェスチャー認識タスクにおけるトランスファー学習が約75%の精度を達成できることが示されている。
5文字の単語が正しく綴られる確率が25%未満であることを考えると、スペル補正システムは読みやすい出力を生成するために不可欠である。
本稿では,文字認識ネットワークのソフトマックス出力を入力として期待する,スペル訂正のための畳み込みニューラルネットワークを提案する。
ネットワークが入力を心で学習すると,ソフトマックス入力と不足トレーニングデータとを組み合わせて純粋に学習すると過度に適合することを示す。
対照的に、ネットワークを分類出力のロジットのいくつかの変種、すなわち、一定の因子によるスケーリング、ランダムノイズの追加、ソフトマックスとハードマックスの入力の混合、またはハードマックス入力の純粋にトレーニングなどにより、これらの出力に隠された重要な情報(トップ5の精度98%)を享受しながら、より汎用性が向上し、読みやすいテキストが得られる。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Improving Model Training via Self-learned Label Representations [5.969349640156469]
より洗練されたラベル表現は、通常のワンホット符号化よりも分類に適していることが示される。
分類タスクの学習中にラベル表現を同時に学習する適応ラベル付き学習(LwAL)アルゴリズムを提案する。
我々のアルゴリズムは無視可能な追加パラメータを導入し、計算オーバーヘッドを最小限に抑える。
論文 参考訳(メタデータ) (2022-09-09T21:10:43Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - (Un)likelihood Training for Interpretable Embedding [30.499562324921648]
テキストと視覚データのセマンティックなギャップを埋める上で,クロスモーダル表現学習は新たな標準となっている。
埋め込みの背後にあるセマンティクスをアンロールする2つの新しい訓練目標,可能性と相違関数を提案する。
双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが,アドホックなビデオ検索のために提案されている。
論文 参考訳(メタデータ) (2022-07-01T09:15:02Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks [3.0410237490041805]
本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-02-25T17:38:31Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。