論文の概要: POCA: Pareto-Optimal Curriculum Alignment for Visual Text Generation
- arxiv url: http://arxiv.org/abs/2604.24171v1
- Date: Mon, 27 Apr 2026 08:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.854649
- Title: POCA: Pareto-Optimal Curriculum Alignment for Visual Text Generation
- Title(参考訳): POCA:ビジュアルテキスト生成のためのパレート最適カリキュラムアライメント
- Authors: Yaohou Fan, Qingzhong Wang, Yongsong Huang, Junyi Liu, Tomo Miyazaki, Shinichiro Omachi,
- Abstract要約: 現在のビジュアルテキスト生成モデルは、テキスト精度と全体的な画像コヒーレンスの間のトレードオフに苦慮している。
本稿では,この問題を多目的問題として扱うフレームワークを提案する。
POCAはCLIP、HPSスコア、文の正確性など、すべての指標を大幅に改善する。
- 参考スコア(独自算出の注目度): 12.130080807547523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current visual text generation models struggle with the trade-off between text accuracy and overall image coherence. We find that achieving high text accuracy can reduce aesthetic quality and instruction-following capability. Although reinforcement learning approaches can alleviate the problem through aligning with multiple rewards, they are often unstable for text generation, as existing approaches normally optimize multiple rewards in a weighted-sum way. In addition, it is difficult to balance the weight of each reward. Moreover, reinforcement learning requires a set of training instructions. A large number of prompts require more training time and computing resources, while a small set leads to poor performance. Hence, how to select the prompts for efficient training is an unsolved problem. In this study, we propose Pareto-Optimal Curriculum Alignment (POCA), a framework that addresses this issue as a multi-objective problem by: 1) identifying the Pareto-optimal set to avoid simple scalarization and 2) designing an adaptive curriculum alignment strategy to manage a learning sequence of a multi-reward dataset using automatic difficulty assessment, which is crucial for optimal convergence as RL methods explore in a limited data environment. In synergy, POCA finds the Pareto-optimal set in a unified reward space, which eliminates inconsistent signals to find the best trade-off solution from different rewards under an easy-to-hard optimization landscape. The experimental results show that POCA significantly improves all metrics such as CLIP, HPS scores and sentence accuracy.
- Abstract(参考訳): 現在のビジュアルテキスト生成モデルは、テキスト精度と全体的な画像コヒーレンスの間のトレードオフに苦慮している。
高いテキスト精度を達成することで、審美的品質と指示追従能力が低下することが判明した。
強化学習アプローチは、複数の報酬と整合して問題を緩和することができるが、既存のアプローチは通常、重み付きサム方式で複数の報酬を最適化するため、テキスト生成では不安定であることが多い。
また、各報酬の重み付けも困難である。
さらに、強化学習には一連の訓練指導が必要である。
多くのプロンプトでは、トレーニング時間とコンピューティングリソースが増加し、小さなセットではパフォーマンスが低下する。
したがって、効率的なトレーニングを行うためのプロンプトをどうやって選択するかは未解決の問題である。
本研究では,多目的問題としてこの問題に対処するフレームワークであるPACA(Pareto-Optimal Curriculum Alignment)を提案する。
1) 単純なスカラー化を避けるためにパレート最適集合を同定し、
2) 適応的なカリキュラムアライメント戦略を設計し,RL法が限られたデータ環境下で探索する際の最適収束に不可欠である自動難易度評価を用いて,マルチリワードデータセットの学習シーケンスを管理する。
シナジーにおいて、POCAはパレート最適集合を統一報酬空間で発見し、これは不整合信号を排除し、容易にハードな最適化環境の下で異なる報酬から最良のトレードオフ解を求める。
実験の結果,POCAはCLIP,HPSスコア,文の正確性などの指標を著しく改善することがわかった。
関連論文リスト
- Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization [7.961090665261694]
グループ相対政策最適化を統合した新しいトポロジ最適化フレームワークであるGraph-GRPOを提案する。
サンプル群全体にわたる報酬の正規化により,タスク難易度の違いによるノイズを効果的に軽減し,きめ細かなクレジット割り当てを可能にする。
論文 参考訳(メタデータ) (2026-03-03T07:45:40Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning [5.203141160419753]
LLMを用いた効率的な報酬関数探索器 ERFSL を提案する。
我々は,各数値的明示的なユーザ要求に対して報奨成分を生成する。
私たちは報酬批評家を使って、正しいコード形式を特定します。
論文 参考訳(メタデータ) (2024-09-04T04:15:14Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。