Fugu-MT 論文翻訳(概要): Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation

論文の概要: Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation

arxiv url: http://arxiv.org/abs/2405.10443v3
Date: Thu, 5 Sep 2024 01:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 03:01:22.451988
Title: Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation
Title（参考訳）: プロンプト最適化を伴わない同時マスキング--同時翻訳のための微調整LDMのパラダイムシフト
Authors: Matthew Raffel, Victor Agostinelli, Lizhong Chen,
Abstract要約: 大規模言語モデル(LLM)は、様々な言語処理タスクにおいて最先端のパフォーマンスを達成した。同時翻訳のための微調整LDMのための新しいパラダイムであるSimulMaskを提案する。 5つの言語対における最先端の最適化戦略と比較して,翻訳品質の大幅な改善が見られた。
参考スコア（独自算出の注目度）: 5.712277386555735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved state-of-the-art performance in various language processing tasks, motivating their adoption in simultaneous translation. Current fine-tuning methods to adapt LLMs for simultaneous translation focus on prompting optimization strategies using either data augmentation or prompt structure modifications. However, these methods suffer from several issues, such as unnecessarily expanded training sets, computational inefficiency from dumping the key and value cache, increased prompt sizes, or restriction to a single decision policy. To eliminate these issues, in this work, we propose SimulMask, a new paradigm for fine-tuning LLMs for simultaneous translation. It utilizes a novel attention mask approach that models simultaneous translation during fine-tuning by masking attention for a desired decision policy. Applying the proposed SimulMask on a Falcon LLM for the IWSLT 2017 dataset, we have observed a significant translation quality improvement compared to state-of-the-art prompting optimization strategies on five language pairs while reducing the computational cost.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な言語処理タスクにおいて最先端のパフォーマンスを達成し、同時翻訳における彼らの採用を動機付けている。 LLMを同時翻訳に適用するための現在の微調整手法は、データ拡張や構造変更の迅速化による最適化戦略の促進に重点を置いている。しかし、これらの手法は、不要に拡張されたトレーニングセット、キーと値キャッシュのダンプによる計算の非効率性、プロンプトサイズの増加、単一決定ポリシーの制限など、いくつかの問題に悩まされている。そこで本研究では,これらの問題を解消するために,同時翻訳のためのLLMを微調整する新たなパラダイムであるSimulMaskを提案する。これは、望ましい意思決定ポリシーのために注意をマスキングすることで、微調整中の同時翻訳をモデル化する新しい注意マスクアプローチを利用する。提案したSimulMaskをIWSLT 2017データセットのFalcon LLMに適用することにより、計算コストを削減しつつ、5つの言語ペアに対する最先端の最適化戦略と比較して、翻訳品質が大幅に向上することを示した。

関連論文リスト

Test-Time Computing for Referring Multimodal Large Language Models [143.49848714354698]
そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
論文参考訳（メタデータ） (2026-02-23T04:42:10Z)
PlaM: Training-Free Plateau-Guided Model Merging for Better Visual Grounding in MLLMs [59.78917775399492]
マルチモーダル命令の微調整はパラドックス的にこのテキストの推論能力を低下させる。この劣化を緩和するためのトレーニング不要のフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-12T15:27:51Z)
Objective Soups: Multilingual Multi-Task Modeling for Speech Processing [69.52720282028385]
マルチ言語・マルチタスク音声処理(MSP)のための単一モデルの訓練は,タスク間の目的の相反によって著しく妨げられる。本稿では,多目的MSPの3つの定式化について検討し,これらをthabfobjective soup recipesと呼ぶ。我々の研究は、階層型MOOが最先端のMSPモデルを構築する上で、より効率的でスケーラブルなアプローチであることを実証している。
論文参考訳（メタデータ） (2025-08-12T07:01:09Z)
Enhancing Large Language Models'Machine Translation via Dynamic Focus Anchoring [22.297388572921477]
機械翻訳(MT)を含む多言語NLPタスクにおいて、大規模言語モデルは例外的な性能を示した。持続的な課題は、多文語のような文脈依存単位(CSU)に対処することにある。本稿では,CSUの取得とセマンティックフォーカスの適用により,LLMのMT能力をシンプルかつ効果的に向上する手法を提案する。
論文参考訳（メタデータ） (2025-05-29T06:29:57Z)
Combining the Best of Both Worlds: A Method for Hybrid NMT and LLM Translation [12.59407158733001]
大規模言語モデル(LLM)は、機械翻訳(MT)など、様々な下流タスクにおいて有望なパフォーマンスを示す。しかし、翻訳にLLMを使うことは、高い計算コストとかなりのレイテンシに悩まされる。本稿では,ソース文の特徴を生かした,新規で素直な判定手法を提案する。
論文参考訳（メタデータ） (2025-05-19T06:50:52Z)
Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文参考訳（メタデータ） (2025-04-16T06:46:15Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
Adaptive Few-shot Prompting for Machine Translation with Pre-trained Language Models [25.88443566366613]
文脈内学習を伴う大規模言語モデル(LLM)は、ニューラルマシン翻訳の処理において顕著な可能性を示している。既存の証拠は、LLMはプロンプトに敏感であり、下流機械翻訳タスクの入力に固定プロンプトを適用するのが最適であることを示している。本稿では,様々な入力文に対して適切な翻訳デモを自動的に選択するための適応的な数ショットプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-03T07:47:59Z)
LANDeRMT: Detecting and Routing Language-Aware Neurons for Selectively Finetuning LLMs to Machine Translation [43.26446958873554]
大規模言語モデル(LLM)は,バイリンガルの監督が限られているにもかかわらず,多言語翻訳において有望な結果を示している。大規模言語モデル(LLM)の最近の進歩は,バイリンガルの監督が限定された場合でも,多言語翻訳において有望な結果を示している。 LandeRMT は LLM を textbfMachine textbfTranslation に選択的に微調整するフレームワークである。
論文参考訳（メタデータ） (2024-09-29T02:39:42Z)
Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。
論文参考訳（メタデータ） (2024-05-28T16:56:42Z)
Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。我々はこの仮説を言語間タスクの範囲内で批判的に検証する。タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文参考訳（メタデータ） (2024-04-25T17:19:36Z)
Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-03-21T13:47:40Z)
DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be Better Context-aware Translators [26.665489056201725]
DeMPT(Decoding-enhanced Multi-phase Prompt Tuning)という適応手法を提案する。各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。実験の結果,本手法は結合法よりも有意に優れていた。
論文参考訳（メタデータ） (2024-02-23T09:01:00Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
Towards Effective Disambiguation for Machine Translation with Large Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文参考訳（メタデータ） (2023-09-20T22:22:52Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Robust Prompt Optimization for Large Language Models Against Distribution Shifts [80.6757997074956]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。本稿では,LLMの分散シフトに対するロバストな最適化法を提案する。この問題は、ラベル付けされたソースグループに最適化されたプロンプトを同時にラベル付けされていないターゲットグループに一般化する必要がある。
論文参考訳（メタデータ） (2023-05-23T11:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。