論文の概要: ExPosST: Explicit Positioning with Adaptive Masking for LLM-Based Simultaneous Machine Translation
- arxiv url: http://arxiv.org/abs/2603.14903v1
- Date: Mon, 16 Mar 2026 07:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.121602
- Title: ExPosST: Explicit Positioning with Adaptive Masking for LLM-Based Simultaneous Machine Translation
- Title(参考訳): ExPosST: LLMに基づく同時機械翻訳のための適応型マスキングを用いた明示的位置決め
- Authors: Yuzhe Shang, Pengzhi Gao, Yazheng Yang, Jiayao Ma, Wei Liu, Jian Luan, Jingsong Su,
- Abstract要約: 大規模言語モデル(LLM)は、最近、同時機械翻訳(SimulMT)において有望な性能を示した。
復号器のみのLLMをSimulMTに適用すると、位置ミスマッチが発生し、復号効率と位置整合性の間にジレンマが発生する。
既存のアプローチは、しばしば特定の位置エンコーディングや、慎重に設計されたプロンプトスキームに依存しており、推論効率、位置整合性、幅広いモデルの互換性を同時に達成できない。
我々は,このジレンマを明示的な位置割り当てによって解決する汎用フレームワークであるExPosSTを提案する。ExPosSTは入力元トークンの固定位置スロットを予約し,異なる位置符号化方式でKVキャッシュによる効率的な復号を可能にする。
- 参考スコア(独自算出の注目度): 19.365349936996584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently demonstrated promising performance in simultaneous machine translation (SimulMT). However, applying decoder-only LLMs to SimulMT introduces a positional mismatch, which leads to a dilemma between decoding efficiency and positional consistency. Existing approaches often rely on specific positional encodings or carefully designed prompting schemes, and thus fail to simultaneously achieve inference efficiency, positional consistency, and broad model compatibility. In this work, we propose ExPosST, a general framework that resolves this dilemma through explicit position allocation. ExPosST reserves fixed positional slots for incoming source tokens, enabling efficient decoding with KV cache across different positional encoding methods. To further bridge the gap between fine-tuning and inference, we introduce a policy-consistent fine-tuning strategy that aligns training with inference-time decoding behavior. Experiments across multiple language pairs demonstrate that ExPosST effectively supports simultaneous translation under diverse policies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、同時機械翻訳(SimulMT)において有望な性能を示した。
しかし、SimulMTにデコーダのみのLLMを適用すると、位置ミスマッチが発生し、デコード効率と位置整合性の間にジレンマが発生する。
既存のアプローチは、しばしば特定の位置エンコーディングや慎重に設計されたプロンプトスキームに依存しており、推論効率、位置整合性、より広いモデルの互換性を同時に達成できない。
本稿では,このジレンマを明示的な位置割り当てによって解決する汎用フレームワークであるExPosSTを提案する。
ExPosSTは、入力元トークンの固定位置スロットを予約し、異なる位置符号化メソッド間でKVキャッシュによる効率的な復号を可能にする。
さらに、微調整と推論のギャップを埋めるために、推論時復号動作とトレーニングを整合させるポリシー一貫性のある微調整戦略を導入する。
複数の言語ペアの実験により、ExPosSTは多様なポリシーの下で同時翻訳を効果的にサポートすることが示された。
関連論文リスト
- Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - WeDLM: Reconciling Diffusion Language Models with Standard Causal Attention for Fast Inference [44.87788417755154]
本稿では,標準因果注意に基づく拡散復号化フレームワークWeDLMを提案する。
WeDLMは強力なARバックボーンの品質を維持しつつ,大幅な高速化を実現している。
論文 参考訳(メタデータ) (2025-12-28T01:25:48Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。
既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。
完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文 参考訳(メタデータ) (2025-04-16T06:46:15Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
本研究では,コンテキストbfTextualized equivaritextbfAnt textbfPosition textbfEncoding(textbfTAPE)を提案する。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - Position IDs Matter: An Enhanced Position Layout for Efficient Context Compression in Large Language Models [34.92897341188079]
文脈情報を圧縮するために特別なトークンを使うことは、大規模言語モデル(LLM)の一般的な慣習である。
位置IDの調整のみでLLMの文脈圧縮能力を向上させる手法であるtextbfEnhanced Position Layout (EPL) を提案する。
論文 参考訳(メタデータ) (2024-09-22T08:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。