Fugu-MT 論文翻訳(概要): VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

論文の概要: VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models

arxiv url: http://arxiv.org/abs/2603.19152v1
Date: Thu, 19 Mar 2026 17:10:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.289728
Title: VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models
Title（参考訳）: VEPO:低リソース言語基盤モデルのための可変エントロピーポリシー最適化
Authors: Chonghan Liu, Yimin Du, Qi An, Xin He, Cunqi Zhai, Fei Tan, Weijia Lin, Xiaochun Gong, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang,
Abstract要約: 大規模言語モデルは低リソース言語上での最適以下の性能を示す。本稿では,政策アライメントプロセスに決定論的構造制約を組み込んだ可変エントロピーポリシー最適化(VEPO)を提案する。 VePOはトークン化効率と翻訳品質の両方を大幅に改善し、表現不足の言語のパフォーマンスギャップを埋める。
参考スコア（独自算出の注目度）: 17.595722907548062
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models frequently exhibit suboptimal performance on low resource languages, primarily due to inefficient subword segmentation and systemic training data imbalances. In this paper, we propose Variable Entropy Policy Optimization (VEPO), which leverages Reinforcement Learning with Verifiable Rewards to incorporate deterministic structural constraints into the policy alignment process. This framework ensures prescribed sequence length, robust format consistency, and rigorous linguistic well formedness, all enforced during training. Central to our approach is a variable entropy mechanism that enables the model to dynamically calibrate the equilibrium between literal fidelity and semantic naturalness by modulating the exploration exploitation manifold. By integrating entropy tempered advantage estimation with asymmetric clipping, VEPO sustains robust exploration while mitigating policy collapse. Empirical evaluations across 90 FLORES-200, COMET-22, chrF directions demonstrate that VEPO yields substantial improvements in both tokenization efficiency and translation quality, bridging the performance gap for underrepresented languages.
Abstract（参考訳）: 大規模言語モデルは、主に非効率なサブワードセグメンテーションと体系的な訓練データ不均衡のために、低リソース言語に最適な性能を示すことが多い。本稿では,決定論的構造制約を政策アライメントプロセスに組み込むために,検証リワードを用いた強化学習を活用する可変エントロピーポリシー最適化(VEPO)を提案する。このフレームワークは、トレーニング中に強制される所定のシーケンス長、堅牢なフォーマット整合性、厳密な言語的健全性を保証する。我々のアプローチの中心は、探索エクスプロイト多様体を変調することにより、モデルがリテラル忠実度と意味的自然性の間の平衡を動的に調整できる可変エントロピー機構である。エントロピー・テンパード・アドバンスト推定と非対称クリッピングを統合することにより、VEPOは政策崩壊を緩和しながら堅牢な探索を継続する。 90 FLORES-200, COMET-22, chrF方向での実証的な評価は、VEPOがトークン化効率と翻訳品質の両方を大幅に改善し、表現不足言語のパフォーマンスギャップを埋めることを示した。

関連論文リスト

Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models [7.316631310935769]
VLA(Vision-Language-Action)モデルは、大規模なデモンストレーションを活用することで、強力な一般化を示している。本研究では,FPOアルゴリズムを提案する。FPOアルゴリズムは,条件付きフローマッチングの目的に対して,サンプルごとの変化を生かして,重要サンプリングを再構築する。 LIBEROベンチマークのFPOとALOHAシミュレーションタスクを、教師付き、嗜好的、拡散的、自己回帰的オンラインRLに対して評価する。
論文参考訳（メタデータ） (2025-10-11T03:11:18Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文参考訳（メタデータ） (2025-10-01T09:11:27Z)
Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T13:50:36Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。