論文の概要: Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation
- arxiv url: http://arxiv.org/abs/2603.00526v1
- Date: Sat, 28 Feb 2026 07:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.24295
- Title: Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation
- Title(参考訳): Mesh-Pro: Asynchronous Advantage-Guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation
- Authors: Zhen Zhou, Jian Liu, Biwen Lei, Jing Xu, Haohan Weng, Yiling Zhu, Zhuo Chen, Junfeng Fan, Yunkai Ma, Dazhao Du, Song Guo, Fengshui Jing, Chunchao Guo,
- Abstract要約: 3次元メッシュ生成におけるRLのトレーニング効率と生成品質の両立を目指す。
具体的には、トレーニング後の効率改善のために、3Dメッシュ生成に適した最初の非同期オンラインRLフレームワークを設計する。
また,メッシュ表現のための新規な斜角四角四辺形トークン化を導入したメッシュプロを提案する。
- 参考スコア(独自算出の注目度): 33.80684329745018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has demonstrated remarkable success in text and image generation, yet its potential in 3D generation remains largely unexplored. Existing attempts typically rely on offline direct preference optimization (DPO) method, which suffers from low training efficiency and limited generalization. In this work, we aim to enhance both the training efficiency and generation quality of RL in 3D mesh generation. Specifically, (1) we design the first asynchronous online RL framework tailored for 3D mesh generation post-training efficiency improvement, which is 3.75$\times$ faster than synchronous RL. (2) We propose Advantage-guided Ranking Preference Optimization (ARPO), a novel RL algorithm that achieves a better trade-off between training efficiency and generalization than current RL algorithms designed for 3D mesh generation, such as DPO and group relative policy optimization (GRPO). (3) Based on asynchronous ARPO, we propose Mesh-Pro, which additionally introduces a novel diagonal-aware mixed triangular-quadrilateral tokenization for mesh representation and a ray-based reward for geometric integrity. Mesh-Pro achieves state-of-the-art performance on artistic and dense meshes.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、テキストと画像生成において顕著な成功を収めているが、その3D生成の可能性はほとんど解明されていない。
既存の試行は、訓練効率の低さと限定的な一般化に苦しむオフライン直接選好最適化(DPO)法に依存するのが一般的である。
本研究では,3次元メッシュ生成におけるRLのトレーニング効率と生成品質の両立を目指す。
具体的には,(1) 同期RLよりも3.75$\times$高速な3Dメッシュ生成後のトレーニング効率向上に適した,最初の非同期オンラインRLフレームワークを設計する。
2) DPO やグループ相対ポリシー最適化 (GRPO) などの3次元メッシュ生成のために設計された現在の RL アルゴリズムよりも,トレーニング効率と一般化のトレードオフを向上する新しい RL アルゴリズムであるアドバンテージ誘導ランク付け優先度最適化 (ARPO) を提案する。
(3) 非同期ARPOに基づいて,メッシュ表現のための新しい斜角四角四辺形トークン化と幾何学的整合性のためのレイベース報酬を導入するメッシュプロを提案する。
Mesh-Proは、芸術的かつ高密度なメッシュ上で最先端のパフォーマンスを実現する。
関連論文リスト
- HiFi-Mesh: High-Fidelity Efficient 3D Mesh Generation via Compact Autoregressive Dependence [36.403921772528236]
本稿では、生成プロセスにコンパクトな自己回帰依存を組み込んだLatent Autoregressive Network(LANE)を紹介する。
LANEは、既存の方法に比べて最大シーケンス長が6倍に改善されている。
論文 参考訳(メタデータ) (2026-01-29T06:22:26Z) - VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation [31.201343197395573]
ビジュアル生成はAutoRegressive(AR)、拡散、Visual AutoRegressive(VAR)の3つのパラダイムで支配されている。
ARや拡散とは異なり、VARは生成ステップをまたいだ異種入力構造で動作し、厳しい非同期ポリシーの衝突を引き起こす。
本稿では,これらの対立を明示的に管理することで,グループ相対政策最適化(GRPO)を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-05T16:36:40Z) - TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models [14.130608036489336]
強化学習(Reinforcement Learning, RL)のポストトレーニングは、生成モデルと人間の嗜好の整合に不可欠であるが、その禁止的な計算コストは、広く普及する上で大きな障壁である。
textbfTreeGRPOは,探索木としてdenoisingプロセスを再キャストすることで,トレーニング効率を劇的に向上させる新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-09T01:17:34Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - Mesh-RFT: Enhancing Mesh Generation via Fine-grained Reinforcement Fine-Tuning [36.55327010076896]
Mesh-RFTは、3Dメッシュ生成のための新しい微細化強化微調整フレームワークである。
Masked Direct Optimization Preference (M-DPO)を使用して、品質を意識した顔マスクによる局所的な改善を実現している。
実験の結果,我々のM-DPOアプローチはハウスドルフ距離(HD)を24.6%削減し,トポロジースコア(TS)を3.8%改善した。
論文 参考訳(メタデータ) (2025-05-22T15:04:18Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Bridging Geometry-Coherent Text-to-3D Generation with Multi-View Diffusion Priors and Gaussian Splatting [51.08718483081347]
幾何学的に一貫した3次元生成を保証するために,複数視点の関節分布を事前に結合するフレームワークを提案する。
我々は,多視点先行を効果的に結合し,異なる視点で最適化を導出する効果的な最適化ルールを導出する。
我々は, 3D-GS から CSD を通じて改良された, 変形可能な四面体格子を用いて, 高品質で洗練されたメッシュを作製する。
論文 参考訳(メタデータ) (2025-05-07T09:12:45Z) - iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T19:10:37Z) - DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization [75.55167570591063]
人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。
DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。
実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
論文 参考訳(メタデータ) (2025-02-05T11:03:08Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。