論文の概要: VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model
- arxiv url: http://arxiv.org/abs/2603.08812v1
- Date: Mon, 09 Mar 2026 18:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.750148
- Title: VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model
- Title(参考訳): VisionCreator-R1: リフレクション強化ネイティブビジュアル生成エージェントモデル
- Authors: Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu,
- Abstract要約: 本研究では,視線を明示的に反映した視覚生成エージェントであるVisionCreator-R1と,反射プラン協調最適化学習手法を提案する。
我々のRPCOは、まず、リフレクション-ストロングシングルイメージ・トラジェクトリとプランニング-ストロングマルチイメージ・トラジェクトリで自己構築されたVCR-SFTデータセットをトレーニングし、次にRLを介してVCR-RLデータセットを共最適化します。
これによって統合されたVisionCreator-R1エージェントが既存のベンチマークでGemini2.5Proを一貫して上回り、VCR-benchはシングルイメージとマルチイメージタスクをカバーしています。
- 参考スコア(独自算出の注目度): 26.934568434330828
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual content generation has advanced from single-image to multi-image workflows, yet existing agents remain largely plan-driven and lack systematic reflection mechanisms to correct mid-trajectory visual errors. To address this limitation, we propose VisionCreator-R1, a native visual generation agent with explicit reflection, together with a Reflection-Plan Co-Optimization (RPCO) training methodology. Through extensive experiments and trajectory-level analysis, we uncover reflection-plan optimization asymmetry in reinforcement learning (RL): planning can be reliably optimized via plan rewards, while reflection learning is hindered by noisy credit assignment. Guided by this insight, our RPCO first trains on the self-constructed VCR-SFT dataset with reflection-strong single-image trajectories and planning-strong multi-image trajectories, then co-optimization on VCR-RL dataset via RL. This yields our unified VisionCreator-R1 agent, which consistently outperforms Gemini2.5Pro on existing benchmarks and our VCR-bench covering single-image and multi-image tasks.
- Abstract(参考訳): ビジュアルコンテンツ生成は、シングルイメージからマルチイメージのワークフローへと進歩してきたが、既存のエージェントは計画駆動であり、中軌道のビジュアルエラーを修正するための体系的なリフレクション機構が欠如している。
この制限に対処するため,明示的なリフレクションを持つネイティブビジュアル生成エージェントであるVisionCreator-R1と,RPCO(Reflection-Plan Co-Optimization)トレーニング手法を提案する。
大規模実験と軌道レベルの解析により、強化学習における反射計画最適化非対称性を明らかにする: 計画報酬によって計画が確実に最適化され、一方、リフレクション学習はノイズの多い信用代入によって妨げられる。
この知見に導かれて、私たちのRPCOはまず、リフレクション-ストロング単一像軌道とプランニング-ストロング多像軌道で自己構築されたVCR-SFTデータセットをトレーニングし、次にRLを介してVCR-RLデータセットを共最適化します。
これによって統合されたVisionCreator-R1エージェントが既存のベンチマークでGemini2.5Proを一貫して上回り、VCR-benchはシングルイメージとマルチイメージタスクをカバーしています。
関連論文リスト
- RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection [18.52946282633359]
RL-RIGは、リフレクションベースの画像生成のための強化学習フレームワークである。
我々は,VLMアクタにプロンプトを編集するためのReflection-GRPOと,与えられたプロンプト下での画質向上のためのイメージエディタを開発する。
実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T15:39:53Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。
我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。
ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T17:59:48Z) - Perception in Reflection [39.33505560810175]
本稿では,現在の大規模視覚言語モデルの限界を超越したリフレクションパラダイムを提案する。
本稿では、ポリシーと批判モデルとを体系的に交互に交互に行う二重モデル反射機構である反射知覚(RePer)を提案する。
論文 参考訳(メタデータ) (2025-04-09T17:59:02Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images [33.70056950818641]
マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。
本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
論文 参考訳(メタデータ) (2023-08-21T20:07:02Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。