Fugu-MT 論文翻訳(概要): SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models

論文の概要: SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models

arxiv url: http://arxiv.org/abs/2509.24781v1
Date: Mon, 29 Sep 2025 13:42:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:20.01187
Title: SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models
Title（参考訳）: SeaPO: 大規模言語モデルのロバスト優先最適化のための戦略誤差増幅
Authors: Jun Rao, Yunjie Liao, Xuebo Liu, Zepeng Lin, Lian Lian, Dong Jin, Shengjun Cheng, Jun Yu, Min Zhang,
Abstract要約: 大規模言語モデルで一般的に発生する3つのエラータイプを活用する戦略的誤り増幅手法であるSeaPOを紹介する。その結果,SeaPOはモデル全体の性能を,特に真性の観点から著しく改善した。最も一般的なエラータイプを注入すると、関連するタスクのパフォーマンスが向上する一方、エラータイプが混在すると、より広範なパフォーマンス向上につながる。
参考スコア（独自算出の注目度）: 25.689746306171276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing alignment methods for preference optimization of large language models (LLMs) aim to enhance model performance by utilizing pairs of positive and negative samples. However, due to the limited capacity of models in scoring or generating responses, the quality of positive and negative samples may become similar during training, which complicates optimization for preference learning. To address this issue, we introduce SeaPO, a Strategic Error Amplification method that leverages three error types commonly occurring in LLMs to introduce specific error patterns into the model Preference Optimization. This strategy ensures that negative samples are more erroneous than positive samples and preference-based training is employed to mitigate the occurrence of these errors, thereby enhancing model performance. Evaluations across five capability dimensions and different model scales (1.5B to 14B) demonstrate that the generated data significantly improved overall model performance, particularly in terms of truthfulness, with improvements of 5-10 percentage points observed. Further analysis reveals that task performance varies depending on the error types introduced. Injecting the most common error types improves performance in related tasks, while a mix of error types leads to a broader performance enhancement: most tasks show stable improvements, while a few tasks exhibit significant gains.
Abstract（参考訳）: 大規模言語モデル(LLM)の選好最適化のための既存のアライメント手法は、正と負のサンプルのペアを利用してモデル性能を向上させることを目的としている。しかし、評価や応答生成におけるモデルの能力に限界があるため、学習中に正と負のサンプルの品質が類似し、選好学習の最適化が複雑になる可能性がある。この問題に対処するため,我々は,LLMで一般的に発生する3つのエラータイプを利用して,特定のエラーパターンをモデルに導入する戦略誤差増幅手法であるSeaPOを導入する。この戦略は、負のサンプルが正のサンプルよりも誤っていることを保証し、これらのエラーの発生を軽減し、モデル性能を向上させる。 5つの機能ディメンションと異なるモデルスケール(1.5Bから14B)で評価した結果、生成したデータはモデル全体のパフォーマンスを、特に真理性の観点から著しく改善し、5～10ポイントの改善が見られた。さらに分析した結果,導入したエラーの種類によってタスク性能が変化していることが判明した。最も一般的なエラータイプを注入すると、関連するタスクのパフォーマンスが向上する一方、エラータイプが混在すると、パフォーマンスが向上する。

関連論文リスト

Unveiling and Mitigating Adversarial Vulnerabilities in Iterative Optimizers [23.164320754562645]
学習しない反復的ロバスト性は、MLモデルの敵対的な例に対する感受性を共有していることを示す。近位勾配のクラスでは,その学習が対人感度に与える影響を実証する。本研究は,様々な感度の脆弱性と,伸展訓練および逆行訓練によって引き起こされる頑健さを,数値的に裏付けるものである。
論文参考訳（メタデータ） (2025-04-26T19:03:54Z)
Teaching Your Models to Understand Code via Focal Preference Alignment [50.5876666815306]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。 DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。 ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T17:46:18Z)
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文参考訳（メタデータ） (2024-02-18T17:10:07Z)
On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文参考訳（メタデータ） (2023-12-12T16:17:15Z)
Unified Low-Resource Sequence Labeling by Sample-Aware Dynamic Sparse Finetuning [24.765911297156855]
FISH-DIPは、少数のパラメータに選択的にフォーカスする、サンプル対応のダイナミックスパース微調整戦略である。 FISH-DIPは、最大40%の性能改善を提供する低リソース設定でモデルをスムーズに最適化できることを実証した。
論文参考訳（メタデータ） (2023-11-07T06:19:37Z)
Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文参考訳（メタデータ） (2023-10-08T21:21:19Z)
Learning to Refit for Convex Learning Problems [11.464758257681197]
ニューラルネットワークを用いて、異なるトレーニングセットに対して最適化されたモデルパラメータを推定するフレームワークを提案する。我々は、凸問題を近似するためにニューラルネットワークのパワーを厳格に特徴づける。
論文参考訳（メタデータ） (2021-11-24T15:28:50Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Automatically Learning Compact Quality-aware Surrogates for Optimization Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文参考訳（メタデータ） (2020-06-18T19:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。