論文の概要: Turning Fixed to Adaptive: Integrating Post-Evaluation into Simultaneous
Machine Translation
- arxiv url: http://arxiv.org/abs/2210.11900v1
- Date: Fri, 21 Oct 2022 11:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:32:57.123962
- Title: Turning Fixed to Adaptive: Integrating Post-Evaluation into Simultaneous
Machine Translation
- Title(参考訳): 適応に固定する: 後評価を同時機械翻訳に統合する
- Authors: Shoutao Guo, Shaolei Zhang, Yang Feng
- Abstract要約: 同時機械翻訳(SiMT)は、原文全体を読む前に翻訳を開始する。
固定政策にポスト評価を統合することで適応政策を実行する方法を提案する。
- 参考スコア(独自算出の注目度): 17.802607889752736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous machine translation (SiMT) starts its translation before reading
the whole source sentence and employs either fixed or adaptive policy to
generate the target sentence. Compared to the fixed policy, the adaptive policy
achieves better latency-quality tradeoffs by adopting a flexible translation
policy. If the policy can evaluate rationality before taking action, the
probability of incorrect actions will also decrease. However, previous methods
lack evaluation of actions before taking them. In this paper, we propose a
method of performing the adaptive policy via integrating post-evaluation into
the fixed policy. Specifically, whenever a candidate token is generated, our
model will evaluate the rationality of the next action by measuring the change
in the source content. Our model will then take different actions based on the
evaluation results. Experiments on three translation tasks show that our method
can exceed strong baselines under all latency.
- Abstract(参考訳): 同時機械翻訳(simt)は、原文全体を読む前に翻訳を開始し、対象文を生成するために固定的または適応的ポリシーを使用する。
固定ポリシーと比較して、適応ポリシーは柔軟な翻訳ポリシーを採用することで、より良いレイテンシー品質のトレードオフを実現する。
政策が行動を起こす前に合理性を評価することができれば、誤った行動の確率も減少する。
しかし, 従来の手法では, 行動評価が不十分であった。
本稿では,固定政策にポスト評価を統合することで適応政策を実行する手法を提案する。
具体的には、候補トークンが生成されるたびに、ソース内容の変化を測定して次のアクションの合理性を評価する。
我々のモデルは評価結果に基づいて異なる行動を取る。
3つの翻訳タスクを実験した結果,本手法はすべてのレイテンシで強いベースラインを超越できることがわかった。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Adaptive Policy with Wait-$k$ Model for Simultaneous Translation [20.45004823667775]
同時機械翻訳(SiMT)は、高品質な翻訳モデルとともに、堅牢な読み書きポリシーを必要とする。
従来の方法は、固定のwait-k$ポリシーとスタンドアロンのwait-k$翻訳モデル、あるいは翻訳モデルと共同で訓練された適応型ポリシーのいずれかに依存している。
本稿では、適応ポリシーモデルを翻訳モデルから切り離すことにより、より柔軟なアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:16:32Z) - Learning Optimal Policy for Simultaneous Machine Translation via Binary
Search [17.802607889752736]
同時機械翻訳(SiMT)は、原文を読みながら翻訳を出力し始める。
ポリシーは、各ターゲットトークンの翻訳中に読み込まれるソーストークンの数を決定する。
本稿では,二分探索により最適ポリシーをオンラインで構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T07:03:06Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech
Translation [75.86581380817464]
SimulSTシステムは通常、音声情報を集約する事前決定と、読み書きを決定するポリシーの2つのコンポーネントを含む。
本稿では,CIF(Continuous Integrate-and-Fire)を適用して適応政策をモデル化することを提案する。
単調なマルチヘッドアテンション (MMA) と比較して,本手法はより単純な計算,低レイテンシにおける品質,長い発話の一般化に優れる。
論文 参考訳(メタデータ) (2022-03-22T23:33:18Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Off-Policy Evaluation of Bandit Algorithm from Dependent Samples under
Batch Update Policy [8.807587076209566]
オフ・ポリティクス評価(OPE)の目的は、行動政策を通じて得られた履歴データを用いて、新しい政策を評価することである。
文脈的帯域幅は過去の観測に基づいてポリシーを更新するため、サンプルは独立ではなく、同一に分布する。
本稿では,従属サンプルに対するマーチンゲール差分列(MDS)から推定器を構築することにより,この問題に対処する。
論文 参考訳(メタデータ) (2020-10-23T15:22:57Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Simultaneous Translation Policies: From Fixed to Adaptive [29.699912674525056]
我々は,一組の固定ポリシーの簡単な構成で適応ポリシーを実現するアルゴリズムを設計する。
我々のアルゴリズムは、同じレイテンシで最大4つのBLEUポイントを上回ります。
グレディモードでは、BLEUのフル文翻訳のスコアを上回ります。
論文 参考訳(メタデータ) (2020-04-27T20:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。