論文の概要: A Frustratingly Easy Improvement for Position Embeddings via Random
Padding
- arxiv url: http://arxiv.org/abs/2305.04859v1
- Date: Mon, 8 May 2023 17:08:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 13:31:40.686286
- Title: A Frustratingly Easy Improvement for Position Embeddings via Random
Padding
- Title(参考訳): ランダムパディングによる位置埋め込みのイライラし易い改善
- Authors: Mingxu Tao and Yansong Feng and Dongyan Zhao
- Abstract要約: 本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
- 参考スコア(独自算出の注目度): 68.75670223005716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Position embeddings, encoding the positional relationships among tokens in
text sequences, make great contributions to modeling local context features in
Transformer-based pre-trained language models. However, in Extractive Question
Answering, position embeddings trained with instances of varied context lengths
may not perform well as we expect. Since the embeddings of rear positions are
updated fewer times than the front position embeddings, the rear ones may not
be properly trained. In this paper, we propose a simple but effective strategy,
Random Padding, without any modifications to architectures of existing
pre-trained language models. We adjust the token order of input sequences when
fine-tuning, to balance the number of updating times of every position
embedding. Experiments show that Random Padding can significantly improve model
performance on the instances whose answers are located at rear positions,
especially when models are trained on short contexts but evaluated on long
contexts. Our code and data will be released for future research.
- Abstract(参考訳): テキストシーケンス内のトークン間の位置関係を符号化する位置埋め込みは、Transformerベースの事前学習言語モデルにおける局所的コンテキスト特徴のモデル化に多大な貢献をする。
しかしながら、抽出質問応答では、さまざまなコンテキスト長のインスタンスでトレーニングされた位置埋め込みは、期待したほどうまく機能しない可能性がある。
後部位置の埋め込みは前部位置の埋め込みよりも少ない時間で更新されるため、後部位置を適切に訓練することができない。
本稿では,既存の事前学習済み言語モデルのアーキテクチャを変更することなく,単純かつ効果的な戦略であるランダムパディングを提案する。
微調整時に入力シーケンスのトークン順序を調整し、各位置埋め込みの更新時間のバランスをとる。
実験により、ランダムパディングは、特にモデルが短い文脈で訓練されているが、長い文脈で評価されている場合に、答えが後位置にあるインスタンスのモデル性能を著しく改善できることが示されている。
私たちのコードとデータは将来の研究のためにリリースされます。
関連論文リスト
- Unlocking the Transferability of Tokens in Deep Models for Tabular Data [67.11727608815636]
トレーニング済みのディープニューラルネットワークの微調整は、さまざまな機械学習タスクにおいて成功しているパラダイムとなっている。
本稿では,特徴トークンの品質向上を目的としたTabTokenを提案する。
トークンを規則化し、機能内および機能間のセマンティクスをキャプチャする、対照的な目的を導入します。
論文 参考訳(メタデータ) (2023-10-23T17:53:09Z) - Extending Input Contexts of Language Models through Training on Segmented Sequences [34.42433279419559]
本研究では,事前学習したモデルの入力コンテキストサイズをアーキテクチャ変更なしに拡張する訓練手法を開発した。
提案手法は,パープレキシティを改善しつつ,入力コンテキストを4倍に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-10-23T07:13:31Z) - Word Order Matters when you Increase Masking [70.29624135819884]
本研究では,事前学習対象自体に対する位置エンコーディングの除去効果について検討し,モデルが共起点のみの位置情報を再構成できるかどうかを検証した。
位置情報の必要性はマスキングの量とともに増大し、位置エンコーディングのないマスキング言語モデルではタスク上でこの情報を再構築できないことがわかった。
論文 参考訳(メタデータ) (2022-11-08T18:14:04Z) - Dynamic Position Encoding for Transformers [18.315954297959617]
再発モデルは、過去数年間、ニューラルネットワーク翻訳(NMT)の分野を支配してきた。
トランスフォーマーは、非リカレントな性質のため、シーケンシャル/ポジション情報を適切にエンコードできない可能性がある。
本稿では,この欠点に対処するため,入力テキストに応じて新しい位置埋め込みを持つ新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-18T03:08:48Z) - Towards the Unseen: Iterative Text Recognition by Distilling from Errors [41.43280922432707]
先行芸術は、ほとんど目に見えない(または稀に見られる)キャラクターのシーケンスを認識することに苦慮している。
我々はこの「目に見えない」問題に対処するための新しい枠組みを提唱した。
私たちの成功の鍵は、ユニークなクロスモーダル変分オートエンコーダです。
論文 参考訳(メタデータ) (2021-07-26T10:06:42Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Improve Transformer Models with Better Relative Position Embeddings [18.59434691153783]
トランスフォーマーアーキテクチャは、単語順序の概念を維持するために明示的な位置符号化に依存している。
既存の作業は位置情報を十分に活用していないと我々は主張する。
本稿では,クエリ,キー,相対的な位置埋め込みの相互作用を促進する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T22:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。