論文の概要: Simultaneous Translation Policies: From Fixed to Adaptive
- arxiv url: http://arxiv.org/abs/2004.13169v2
- Date: Sat, 2 May 2020 07:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:20:00.466204
- Title: Simultaneous Translation Policies: From Fixed to Adaptive
- Title(参考訳): 同時翻訳政策:固定から適応へ
- Authors: Baigong Zheng, Kaibo Liu, Renjie Zheng, Mingbo Ma, Hairong Liu, Liang
Huang
- Abstract要約: 我々は,一組の固定ポリシーの簡単な構成で適応ポリシーを実現するアルゴリズムを設計する。
我々のアルゴリズムは、同じレイテンシで最大4つのBLEUポイントを上回ります。
グレディモードでは、BLEUのフル文翻訳のスコアを上回ります。
- 参考スコア(独自算出の注目度): 29.699912674525056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive policies are better than fixed policies for simultaneous
translation, since they can flexibly balance the tradeoff between translation
quality and latency based on the current context information. But previous
methods on obtaining adaptive policies either rely on complicated training
process, or underperform simple fixed policies. We design an algorithm to
achieve adaptive policies via a simple heuristic composition of a set of fixed
policies. Experiments on Chinese -> English and German -> English show that our
adaptive policies can outperform fixed ones by up to 4 BLEU points for the same
latency, and more surprisingly, it even surpasses the BLEU score of
full-sentence translation in the greedy mode (and very close to beam mode), but
with much lower latency.
- Abstract(参考訳): 現在の状況情報に基づいて、翻訳品質とレイテンシのトレードオフを柔軟にバランスできるため、適応ポリシーは同時翻訳のための固定ポリシーよりも優れている。
しかし、適応ポリシーを得る以前の方法は、複雑なトレーニングプロセスに依存するか、単純な固定ポリシーを過小評価する。
我々は,固定ポリシーの集合の単純なヒューリスティック構成により適応ポリシーを実現するアルゴリズムを設計する。
中国語 ->英語とドイツ語 ->英語による実験では、我々の適応ポリシーは、同じレイテンシで最大4つのBLEUポイントを上回り、さらに驚くべきことに、greedyモード(およびビームモードに非常に近い)におけるBLEUの完全文翻訳スコアよりもはるかに低いレイテンシで、固定されたポリシーを上回ります。
関連論文リスト
- Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。
本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。
FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文 参考訳(メタデータ) (2025-01-24T10:11:48Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Learning Optimal Policy for Simultaneous Machine Translation via Binary
Search [17.802607889752736]
同時機械翻訳(SiMT)は、原文を読みながら翻訳を出力し始める。
ポリシーは、各ターゲットトークンの翻訳中に読み込まれるソーストークンの数を決定する。
本稿では,二分探索により最適ポリシーをオンラインで構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T07:03:06Z) - Turning Fixed to Adaptive: Integrating Post-Evaluation into Simultaneous
Machine Translation [17.802607889752736]
同時機械翻訳(SiMT)は、原文全体を読む前に翻訳を開始する。
固定政策にポスト評価を統合することで適応政策を実行する方法を提案する。
論文 参考訳(メタデータ) (2022-10-21T11:57:14Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。