論文の概要: Dynamic Jointly Batch Selection for Data Efficient Machine Translation Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.04406v1
- Date: Thu, 06 Nov 2025 14:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.4562
- Title: Dynamic Jointly Batch Selection for Data Efficient Machine Translation Fine-Tuning
- Title(参考訳): データ効率の良い機械翻訳ファインタニングのための動的連成バッチ選択
- Authors: Mohammad Amin Ghanizadeh, Mohammad Javad Dousti,
- Abstract要約: 本稿では,細調整機械翻訳システムに特化して設計されたデータ選択手法を提案する。
学習可能性スコアを定義することにより,本手法は訓練用データポイントの有用性を体系的に評価する。
CCMatrixデータセットに微調整したmBARTモデルを用いて,英語とペルシャ語と他の言語対の実験を行い,本手法がデータ効率を最大5倍改善できることを実証した。
- 参考スコア(独自算出の注目度): 2.016758225924076
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data quality and its effective selection are fundamental to improving the performance of machine translation models, serving as cornerstones for achieving robust and reliable translation systems. This paper presents a data selection methodology specifically designed for fine-tuning machine translation systems, which leverages the synergy between a learner model and a pre-trained reference model to enhance overall training effectiveness. By defining a learnability score, our approach systematically evaluates the utility of data points for training, ensuring that only the most relevant and impactful examples contribute to the fine-tuning process. Furthermore, our method employs a batch selection strategy which considers interdependencies among data points, optimizing the efficiency of the training process while maintaining a focus on data relevance. Experiments on English to Persian and several other language pairs using an mBART model fine-tuned on the CCMatrix dataset demonstrate that our method can achieve up to a fivefold improvement in data efficiency compared to an iid baseline. Experimental results indicate that our approach improves computational efficiency by 24 when utilizing cached embeddings, as it requires fewer training data points. Additionally, it enhances generalization, resulting in superior translation performance compared to random selection method.
- Abstract(参考訳): データ品質とその効果的な選択は、機械翻訳モデルの性能向上に不可欠であり、堅牢で信頼性の高い翻訳システムを実現するための基盤となる。
本稿では,学習者モデルと事前学習した参照モデルとの相乗効果を活用し,総合的な学習効率を高めるため,微調整機械翻訳システムに特化して設計されたデータ選択手法を提案する。
学習可能性スコアを定義することにより、トレーニングのためのデータポイントの有用性を体系的に評価し、最も関連性が高く影響の大きい例だけが微調整プロセスに寄与することを保証する。
さらに,本手法では,データポイント間の相互依存を考慮したバッチ選択方式を採用し,データ関連性を重視しつつ,トレーニングプロセスの効率を最適化する。
CCMatrixデータセットに微調整したmBARTモデルを用いて,英語とペルシャ語と他の言語対の実験を行ったところ,iidベースラインに比べて最大5倍の効率向上が達成できた。
実験結果から,キャッシュ埋め込みを利用する場合の計算効率は24倍に向上し,トレーニングデータポイントの削減が図られた。
さらに、一般化が向上し、ランダム選択法よりも優れた翻訳性能が得られる。
関連論文リスト
- Efficient Code LLM Training via Distribution-Consistent and Diversity-Aware Data Selection [29.647174797769015]
本稿では,トレーニング効率とモデル性能の両方を改善することを目的とした,パラメトリックモデルを用いたコードデータ選択手法を提案する。
提案手法は,92K以上の全サンプリングベースラインに対して2.4% (HumanEval) と2.3% (MBPP) のゲインを達成し,他のサンプリング手法よりも性能と効率が優れている。
論文 参考訳(メタデータ) (2025-07-03T07:19:56Z) - Quality over Quantity: An Effective Large-Scale Data Reduction Strategy Based on Pointwise V-Information [2.133855532092057]
我々は、ポイントワイドV情報(PVI)に基づく効果的なデータ削減戦略を提案する。
実験の結果、データの10%から30%が削除された場合、分類器の性能は0.0001%から0.76%の精度で維持されることがわかった。
我々は,これまで英語のデータセットに限られていたPVIフレームワークを,さまざまな自然言語処理(NLP)タスクやベースモデルに適用した。
論文 参考訳(メタデータ) (2025-06-19T06:59:19Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Efficient Pretraining Data Selection for Language Models via Multi-Actor Collaboration [39.16321257800402]
言語モデル(LM)の事前学習を高速化する多要素協調データ選択機構を提案する。
各データ選択方法は、その基準に基づいてデータを独立に優先順位付けし、モデルの現在の状態を使用して優先順位付けルールを更新する。
コンソールは、様々な段階における異なるアクターの影響を調整し、LM事前訓練プロセスを通して全てのアクターからの情報を動的に統合するように設計されている。
論文 参考訳(メタデータ) (2024-10-10T16:45:28Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。