論文の概要: Addressing the Length Bias Problem in Document-Level Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2311.11601v1
- Date: Mon, 20 Nov 2023 08:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:27:17.993341
- Title: Addressing the Length Bias Problem in Document-Level Neural Machine
Translation
- Title(参考訳): 文書レベルニューラルネットワーク翻訳における長さバイアス問題への対処
- Authors: Zhuocheng Zhang, Shuhao Gu, Min Zhang, Yang Feng
- Abstract要約: 文書レベルのニューラルマシン翻訳(DNMT)は、より多くのコンテキスト情報を組み込むことで、有望な結果を示している。
DNMTは、最大シーケンス長よりもはるかに短いか長い文書を復号する際に、翻訳品質が著しく低下する。
学習方法,注意機構,復号化戦略におけるDNMTモデルの改善を提案する。
- 参考スコア(独自算出の注目度): 29.590471092149375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document-level neural machine translation (DNMT) has shown promising results
by incorporating more context information. However, this approach also
introduces a length bias problem, whereby DNMT suffers from significant
translation quality degradation when decoding documents that are much shorter
or longer than the maximum sequence length during training. %i.e., the length
bias problem. To solve the length bias problem, we propose to improve the DNMT
model in training method, attention mechanism, and decoding strategy. Firstly,
we propose to sample the training data dynamically to ensure a more uniform
distribution across different sequence lengths. Then, we introduce a
length-normalized attention mechanism to aid the model in focusing on target
information, mitigating the issue of attention divergence when processing
longer sequences. Lastly, we propose a sliding window strategy during decoding
that integrates as much context information as possible without exceeding the
maximum sequence length. The experimental results indicate that our method can
bring significant improvements on several open datasets, and further analysis
shows that our method can significantly alleviate the length bias problem.
- Abstract(参考訳): 文書レベルのニューラルマシン翻訳(DNMT)は、より多くのコンテキスト情報を組み込むことで、有望な結果を示している。
しかし、このアプローチは長手バイアス問題も導入しており、トレーニング中の最大シーケンス長よりもずっと短いか長い文書を復号する際に、dnmtは翻訳品質が著しく低下する。
%,長さバイアス問題であった。
長バイアス問題を解決するために,訓練法,注意機構,復号戦略におけるdnmtモデルの改善を提案する。
まず,トレーニングデータを動的にサンプリングし,シーケンス長の異なる分布をより均一にすることを提案する。
次に,対象情報に着目したモデルを支援するために,長い列を処理する際に注意の相違を緩和する長手正規化注意機構を提案する。
最後に,最大シーケンス長を超えることなく,できるだけ多くのコンテキスト情報を統合するデコード中のスライディングウィンドウ戦略を提案する。
実験結果から,本手法は複数のオープンデータセットにおいて大きな改善をもたらすことを示し,さらに解析した結果,長手バイアス問題を大幅に軽減できることが示唆された。
関連論文リスト
- Selecting Influential Samples for Long Context Alignment via Homologous Models' Guidance and Contextual Awareness Measurement [62.87020831987625]
本稿では,長距離依存関係に富む影響力のある,高品質なサンプルを識別する新しいフレームワークを提案する。
我々は、長距離依存を効果的にフレーム化するために、影響力のあるデータとして最も難しいサンプルを選択する。
実験により, GATEAUは長距離依存関係に富んだサンプルを効果的に同定し, これらのサンプルに基づいて訓練したモデルにより, より優れた指示追従と長文理解能力を示すことが示された。
論文 参考訳(メタデータ) (2024-10-21T04:30:53Z) - Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。
また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。
提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文 参考訳(メタデータ) (2024-10-05T15:59:32Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Latent-based Diffusion Model for Long-tailed Recognition [10.410057703866899]
長い尾の不均衡分布は、実用的なコンピュータビジョンアプリケーションにおいて一般的な問題である。
そこで本稿では,Long-tailed Recognition (LDMLR) のための遅延型拡散モデル(Latent-based Diffusion Model for Long-tailed Recognition)を提案する。
モデルの精度は,提案手法を用いてCIFAR-LTおよびImageNet-LTデータセットの改善を示す。
論文 参考訳(メタデータ) (2024-04-06T06:15:07Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - AdAUC: End-to-end Adversarial AUC Optimization Against Long-tail
Problems [102.95119281306893]
我々は、AUCを最適化するための敵の訓練方法を探求するための早期トライアルを提示する。
我々は、AUC最適化問題をサドル点問題として再構成し、目的がインスタンスワイズ関数となる。
我々の分析は, min-max問題の勾配を計算して, 逆例を生成するアルゴリズムが求められているため, 既存の研究と異なる。
論文 参考訳(メタデータ) (2022-06-24T09:13:39Z) - Sequence Length is a Domain: Length-based Overfitting in Transformer
Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。
実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文 参考訳(メタデータ) (2021-09-15T13:25:19Z) - Short-Term Memory Optimization in Recurrent Neural Networks by
Autoencoder-based Initialization [79.42778415729475]
線形オートエンコーダを用いた列列の明示的暗記に基づく代替解を提案する。
このような事前学習が、長いシーケンスで難しい分類タスクを解くのにどのように役立つかを示す。
提案手法は, 長周期の復元誤差をはるかに小さくし, 微調整時の勾配伝播を良くすることを示す。
論文 参考訳(メタデータ) (2020-11-05T14:57:16Z) - Longitudinal Deep Kernel Gaussian Process Regression [16.618767289437905]
縦型ディープカーネルプロセスレグレッション(L-DKGPR)を導入する。
L-DKGPRは、縦方向のデータから複雑な多レベル相関構造の発見を自動化する。
そこで我々は,L-DKGPRを学習するための効率的なアルゴリズムを,遅延空間誘導点と変分推論を用いて導出した。
論文 参考訳(メタデータ) (2020-05-24T15:10:48Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。