論文の概要: Group Relative Policy Optimization for Image Captioning
- arxiv url: http://arxiv.org/abs/2503.01333v1
- Date: Mon, 03 Mar 2025 09:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:26.353566
- Title: Group Relative Policy Optimization for Image Captioning
- Title(参考訳): 画像キャプションのためのグループ相対的ポリシー最適化
- Authors: Xu Liang,
- Abstract要約: 本稿では,最新のグループ相対政策最適化(GRPO)強化学習アルゴリズムを第2段階の最適化ソリューションとして利用することを提案する。
ポリシー更新の振幅とKLのばらつきを制約することにより、トレーニング中のモデルの安定性が大幅に保証される。
- 参考スコア(独自算出の注目度): 1.9606373630214207
- License:
- Abstract: Image captioning tasks usually use two-stage training to complete model optimization. The first stage uses cross-entropy as the loss function for optimization, and the second stage uses self-critical sequence training (SCST) for reinforcement learning optimization. However, the SCST algorithm has certain defects. SCST relies only on a single greedy decoding result as a baseline. If the model itself is not stable enough, the greedy decoding result may be relatively worst, which will lead to a high variance of advantage estimation, further leading to unstable policy updates. In addition, SCST only compares one sampling result with the greedy decoding result, and the generation diversity is limited, which may fall into a local optimum. In this paper, we propose using the latest Group Relative Policy Optimization (GRPO) reinforcement learning algorithm as an optimization solution for the second stage. GRPO generates multiple candidate captions for the input image and then continuously optimizes the model through intragroup comparison. By constraining the amplitude of policy updates and KL divergence, the stability of the model during training is greatly guaranteed. In addition, compared to SCST, which only samples one answer, GRPO samples and generates multiple answers. Multiple candidate answers in the group cover a wider solution space. Combined with KL divergence constraints, GRPO can improve diversity while ensuring model stability. The code for this article is available at https://github.com/liangxu-one/ms-models/tree/image_caption_grpo/research/arxiv_papers/Image_Caption _GRPO.
- Abstract(参考訳): イメージキャプションタスクは通常、モデル最適化を完了させるために2段階のトレーニングを使用する。
第1段階は損失関数としてクロスエントロピーを用い、第2段階は自己臨界シーケンストレーニング(SCST)を用いて強化学習最適化を行う。
しかし、SCSTアルゴリズムにはある種の欠陥がある。
SCSTはベースラインとして1つのgreedyデコード結果にのみ依存する。
モデル自体が十分に安定していない場合、グリーディ復号結果は比較的最悪のものになり、利点推定のばらつきが高くなり、さらに不安定なポリシー更新につながる。
さらに、SCSTは1つのサンプリング結果とgreedy復号結果を比較するだけで、生成の多様性は制限され、局所的な最適化に陥る可能性がある。
本稿では,最新のグループ相対政策最適化(GRPO)強化学習アルゴリズムを第2段階の最適化ソリューションとして利用することを提案する。
GRPOは入力画像の複数の候補キャプションを生成し、グループ間比較によりモデルを継続的に最適化する。
ポリシー更新の振幅とKLのばらつきを制約することにより、トレーニング中のモデルの安定性が大幅に保証される。
さらに、1つの回答のみをサンプリングするSCSTと比較して、GRPOは複数の回答をサンプリングして生成する。
群内の複数の候補解はより広い解空間をカバーする。
KL分散制約と組み合わせることで、GRPOはモデルの安定性を確保しながら多様性を向上させることができる。
この記事のコードはhttps://github.com/liangxu-one/ms-models/tree/image_caption_grpo/research/arxiv_papers/Image_Caption _GRPOで公開されている。
関連論文リスト
- Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Towards Efficient and Optimal Covariance-Adaptive Algorithms for Combinatorial Semi-Bandits [12.674929126684528]
我々は、プレイヤーがPアクションの中から d 個の基本アイテムを含む集合のパワーセットから選択する半帯域の問題に対処する。
提案手法は半帯域フィードバックを効果的に活用し,帯域フィードバックアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-23T08:07:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Scalable Combinatorial Bayesian Optimization with Tractable Statistical
models [44.25245545568633]
緩和空間上のブラックボックス関数(集合、列、木、グラフなど)を最適化する問題について検討する。
サブモジュール緩和の最近の進歩に基づき,BOCSモデルにおけるAFO問題のスケーラビリティと精度向上を目標として,Parametrized Submodular (PSR) のアプローチを検討する。
多様なベンチマーク問題に対する実験では、BOCSモデルに対するPSRによる大幅な改善が示されている。
論文 参考訳(メタデータ) (2020-08-18T22:56:46Z) - A deep primal-dual proximal network for image restoration [8.797434238081372]
我々は、プリミティブ・デュアル・イテレーションから構築されたディープPDNetというディープネットワークを設計し、前もって分析を行い、標準的なペナル化可能性の最小化を図った。
フルラーニング」と「パートラーニング」の2つの異なる学習戦略が提案され、第1は最も効率的な数値である。
以上の結果から,提案したDeepPDNetは,MNISTと,より複雑なBSD68,BSD100,SET14データセットにおいて,画像復元と単一画像超解像処理に優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-02T08:29:52Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。