論文の概要: SubICap: Towards Subword-informed Image Captioning
- arxiv url: http://arxiv.org/abs/2012.13122v1
- Date: Thu, 24 Dec 2020 06:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:29:06.799908
- Title: SubICap: Towards Subword-informed Image Captioning
- Title(参考訳): SubICap:Subword-informed Image Captioningを目指して
- Authors: Naeha Sharif, Mohammed Bennamoun, Wei Liu, Syed Afaq Ali Shah
- Abstract要約: 単語をより小さな構成単位「サブワード」に分解し、字幕を単語の代わりにサブワードの列として表現する。
本システムでは,学習語彙サイズをベースラインより約90%小さくすることで,様々な測定値を改善する。
- 参考スコア(独自算出の注目度): 37.42085521950802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Image Captioning (IC) systems model words as atomic units in
captions and are unable to exploit the structural information in the words.
This makes representation of rare words very difficult and out-of-vocabulary
words impossible. Moreover, to avoid computational complexity, existing IC
models operate over a modest sized vocabulary of frequent words, such that the
identity of rare words is lost. In this work we address this common limitation
of IC systems in dealing with rare words in the corpora. We decompose words
into smaller constituent units 'subwords' and represent captions as a sequence
of subwords instead of words. This helps represent all words in the corpora
using a significantly lower subword vocabulary, leading to better parameter
learning. Using subword language modeling, our captioning system improves
various metric scores, with a training vocabulary size approximately 90% less
than the baseline and various state-of-the-art word-level models. Our
quantitative and qualitative results and analysis signify the efficacy of our
proposed approach.
- Abstract(参考訳): 既存の画像キャプション(IC)システムは、単語をキャプション内の原子単位としてモデル化し、単語の構造情報を活用できない。
これにより、希少な単語の表現は非常に難しく、語彙外語は不可能になる。
さらに、計算複雑性を回避するため、既存のICモデルは、稀な単語の同一性が失われるように、頻繁な単語の控えめな大きさの語彙で動作する。
本研究は,コーパスにおけるレアワード処理におけるICシステムの共通的制限に対処する。
単語をより小さな構成単位「サブワード」に分解し、字幕を単語の代わりにサブワードの列として表現する。
これはコーパス内のすべての単語を、かなり低いサブワード語彙で表現し、パラメータ学習を改善するのに役立つ。
サブワードの言語モデルを用いて, 学習語彙サイズがベースラインおよび最先端の単語レベルモデルよりも約90%小さくなり, 様々な指標スコアが向上した。
定量的・定性的な結果と分析は,提案手法の有効性を示す。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Morphological Skip-Gram: Using morphological knowledge to improve word
representation [2.0129974477913457]
我々は,文字n-gramのFastTextバッグを単語形態素の袋に置き換えることで,単語埋め込みを訓練する新しい手法を提案する。
結果は、FastTextと比較して、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-07-20T12:47:36Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。