論文の概要: Contrastive Feedback Mechanism for Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2407.20524v2
- Date: Wed, 31 Jul 2024 09:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-01 11:58:12.705925
- Title: Contrastive Feedback Mechanism for Simultaneous Speech Translation
- Title(参考訳): 同時音声翻訳のためのコントラストフィードバック機構
- Authors: Haotian Tan, Sakriani Sakti,
- Abstract要約: 同時音声翻訳のためのコントラストフィードバック機構(CFM)を提案する。
CFMは、これらの予測から望ましくないモデルの振る舞いを、対照的な目的を通じて排除するようシステムに誘導する。
MuST-C v1.0データセットの8言語にまたがる3つの最先端決定ポリシーの実験により、CFMはSSTの性能を効果的に改善することが示された。
- 参考スコア(独自算出の注目度): 11.157709125869593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in simultaneous speech translation (SST) focus on the decision policies that enable the use of offline-trained ST models for simultaneous inference. These decision policies not only control the quality-latency trade-off in SST but also mitigate the impact of unstable predictions on translation quality by delaying translation for more context or discarding these predictions through stable hypothesis detection. However, these policies often overlook the potential benefits of utilizing unstable predictions. We introduce the contrastive feedback mechanism (CFM) for SST, a novel method that leverages these unstable predictions as feedback to improve translation quality. CFM guides the system to eliminate undesired model behaviors from these predictions through a contrastive objective. The experiments on 3 state-of-the-art decision policies across 8 languages in the MuST-C v1.0 dataset show that CFM effectively improves the performance of SST.
- Abstract(参考訳): 同時音声翻訳(SST)の最近の進歩は、オフライン学習STモデルによる同時推論を可能にする決定ポリシーに焦点を当てている。
これらの決定ポリシは、SSTの品質レイテンシトレードオフを制御するだけでなく、よりコンテキストの翻訳を遅らせたり、安定した仮説検出を通じてこれらの予測を捨てることで、不安定な予測が翻訳品質に与える影響を軽減する。
しかし、これらの政策はしばしば不安定な予測を利用する潜在的な利点を見落としている。
本稿では、これらの不安定な予測をフィードバックとして活用し、翻訳品質を向上させる新しい手法であるSSTのコントラストフィードバック機構(CFM)を紹介する。
CFMは、これらの予測から望ましくないモデルの振る舞いを、対照的な目的を通じて排除するようシステムに誘導する。
MuST-C v1.0データセットの8言語にまたがる3つの最先端決定ポリシーの実験は、CFMがSSTの性能を効果的に改善することを示している。
関連論文リスト
- Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation [23.7663178803576]
本稿では,機械翻訳の品質予測のための2つの相補的パラダイムについて検討する。
MTへのLLM(Large Language Models)の急速な導入は、研究の状況を変えつつあるが、確立された品質予測パラダイムへの影響は、まだ未定である。
論文 参考訳(メタデータ) (2026-03-04T13:54:58Z) - Unlocking Reasoning Capability on Machine Translation in Large Language Models [57.60641851466707]
推論指向の大規模言語モデル(RLM)は、明示的な中間推論を生成することにより、数学やコーディングといったタスクに強い利益をもたらす。
WMT24++ベンチマークを用いて,オープンおよびクローズドヘビー級のRCMを系統的に評価した。
明示的な推論を可能にすることは、言語やモデル間の翻訳品質を一貫して低下させる。
論文 参考訳(メタデータ) (2026-02-16T14:05:59Z) - Test-Time Adaptation for Tactile-Vision-Language Models [6.918033886034668]
触覚ビジョン言語(TVL)モデルは、現実のロボットやマルチモーダルな知覚タスクにますます多くデプロイされている。
既存のテスト時間適応法は、一様条件下でのフィルタリングを提供するが、モーダルシフトの下でのモダリティの信頼性の明示的な扱いは欠如している。
本稿では,予測の不確実性と摂動に基づく応答からモダリティ毎の信頼性を推定する信頼性認識フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-31T02:26:01Z) - Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction [51.50282796099369]
本稿では,多次元命令の不確実性低減フレームワークを開発し,意味論的に制約された逆の例を生成する。
言語誘導サンプリングプロセスの予測により、設計したResAdv-DDIMサンプルにより最適化プロセスが安定化される。
セマンティック制約付き3次元逆数例の参照フリー生成を初めて実現した。
論文 参考訳(メタデータ) (2025-10-27T04:02:52Z) - Test-Time Scaling of Reasoning Models for Machine Translation [16.317481079574065]
テスト時間スケーリング(TTS)は、数学やコーディングといった様々なタスクにおける推論モデル(RM)の性能を向上させる。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-10-07T21:15:18Z) - Decoding Uncertainty: The Impact of Decoding Strategies for Uncertainty Estimation in Large Language Models [58.198220611190884]
大規模言語モデル(LLM)における復号化戦略が不確実性推定に与える影響について検討する。
実験の結果,反復を緩和するContrastive Searchは,所望のLLMに対して,平均不確かさを推定できることがわかった。
論文 参考訳(メタデータ) (2025-09-20T13:48:13Z) - Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Unsupervised Translation Quality Estimation Exploiting Synthetic Data
and Pre-trained Multilingual Encoder [17.431776840662273]
教師なし文レベルTQEにおける合成TQEデータと事前学習多言語エンコーダの有用性について検討した。
WMT20およびWMT21データセットに対する実験により、この手法は高解像度および低リソースの翻訳方向において、他の教師なしTQE手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-09T03:10:42Z) - Incremental Blockwise Beam Search for Simultaneous Speech Translation
with Controllable Quality-Latency Tradeoff [49.75167556773752]
ブロックワイズ・セルフアテンショナル・エンコーダ・モデル(英語版)は、同時音声翻訳において有望なエンドツーエンドのアプローチとして登場した。
本稿では、局所的な合意や品質レイテンシ制御のための$nのポリシーを組み込んだインクリメンタルなブロックワイドビームサーチを提案する。
論文 参考訳(メタデータ) (2023-09-20T14:59:06Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Improving speech translation by fusing speech and text [24.31233927318388]
異なるモダリティである音声とテキストの相補的な長所を利用する。
textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
論文 参考訳(メタデータ) (2023-05-23T13:13:48Z) - Understanding and Mitigating the Uncertainty in Zero-Shot Translation [92.25357943169601]
ゼロショット翻訳の不確実性の観点から、オフターゲット問題を理解し、緩和することを目的としている。
そこで本研究では,モデルトレーニングのためのトレーニングデータを認知するための,軽量かつ補完的な2つのアプローチを提案する。
提案手法は,強いMNMTベースライン上でのゼロショット翻訳の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-20T10:29:46Z) - Better Uncertainty Quantification for Machine Translation Evaluation [17.36759906285316]
我々は、新しい異種回帰、発散最小化、および直接不確実性予測目標を用いてCOMETメトリックを訓練する。
実験の結果、WMT20とWMT21のメトリクスタスクデータセットが改善され、計算コストが大幅に削減された。
論文 参考訳(メタデータ) (2022-04-13T17:49:25Z) - Infusing Future Information into Monotonic Attention Through Language
Models [3.2655040724537634]
SNMTモデルは、ソースシーケンスを処理する前にターゲットシーケンスを出力し始める。
十分な情報がないため、単調な注意が読み書きの判断を下す可能性がある。
本稿では,モノトニックな注意を外部言語モデルで支援し,意思決定を改善する枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-07T14:32:36Z) - Modeling Voting for System Combination in Machine Translation [92.09572642019145]
本稿では,機械翻訳におけるシステムの組み合わせに対する投票のモデル化手法を提案する。
提案手法は,仮説間の関係を解析できるだけでなく,エンドツーエンドのトレーニングを可能にするため,統計的手法とニューラル手法の利点を組み合わせたものである。
論文 参考訳(メタデータ) (2020-07-14T09:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。