論文の概要: RMLer: Synthesizing Novel Objects across Diverse Categories via Reinforcement Mixing Learning
- arxiv url: http://arxiv.org/abs/2512.19300v1
- Date: Mon, 22 Dec 2025 11:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.733242
- Title: RMLer: Synthesizing Novel Objects across Diverse Categories via Reinforcement Mixing Learning
- Title(参考訳): RMLer:強化混合学習による多様なカテゴリにわたる新しいオブジェクトの合成
- Authors: Jun Li, Zikun Chen, Haibo Chen, Shuo Chen, Jian Yang,
- Abstract要約: 強化混合学習(Reinforcement Mixing Learning、RMLer)は、クロスカテゴリの概念融合を定式化するフレームワークである。
私たちの仕事は、映画、ゲーム、デザインにおいて有望な応用を伴う、新しい視覚概念を生み出すための堅牢なフレームワークを提供します。
- 参考スコア(独自算出の注目度): 16.682831359982064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel object synthesis by integrating distinct textual concepts from diverse categories remains a significant challenge in Text-to-Image (T2I) generation. Existing methods often suffer from insufficient concept mixing, lack of rigorous evaluation, and suboptimal outputs-manifesting as conceptual imbalance, superficial combinations, or mere juxtapositions. To address these limitations, we propose Reinforcement Mixing Learning (RMLer), a framework that formulates cross-category concept fusion as a reinforcement learning problem: mixed features serve as states, mixing strategies as actions, and visual outcomes as rewards. Specifically, we design an MLP-policy network to predict dynamic coefficients for blending cross-category text embeddings. We further introduce visual rewards based on (1) semantic similarity and (2) compositional balance between the fused object and its constituent concepts, optimizing the policy via proximal policy optimization. At inference, a selection strategy leverages these rewards to curate the highest-quality fused objects. Extensive experiments demonstrate RMLer's superiority in synthesizing coherent, high-fidelity objects from diverse categories, outperforming existing methods. Our work provides a robust framework for generating novel visual concepts, with promising applications in film, gaming, and design.
- Abstract(参考訳): 異なるテキスト概念を多様なカテゴリから統合した新しいオブジェクト合成は、テキスト・ツー・イメージ(T2I)生成において重要な課題である。
既存の手法は、しばしば不十分な概念混合、厳密な評価の欠如、最適以下の出力を、概念的不均衡、表面的組み合わせ、あるいは単なる並置として定義する。
これらの制約に対処するため、我々は、クロスカテゴリの概念融合を強化学習問題として定式化するフレームワークである強化混合学習(RMLer)を提案し、混合特徴は状態として機能し、戦略をアクションとして混合し、視覚的成果を報酬として提供する。
具体的には、クロスカテゴリテキストの埋め込みをブレンドするための動的係数を予測するためのMLP-policyネットワークを設計する。
さらに,(1)意味的類似度と(2)融合対象と構成概念との合成バランスに基づいて視覚報酬を導入する。
推論において、選択戦略はこれらの報酬を利用して、高品質の融合オブジェクトをキュレートする。
広範囲にわたる実験は、RMLerが様々なカテゴリのコヒーレントで高忠実なオブジェクトを合成し、既存の手法より優れていることを示す。
私たちの仕事は、映画、ゲーム、デザインにおいて有望な応用を伴う、新しい視覚概念を生み出すための堅牢なフレームワークを提供します。
関連論文リスト
- HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning [0.0]
そこで我々は,人間の嗜好を潜在ベクトル値報酬関数としてモデル化する,嗜好に基づく多目的逆強化学習(MO-IRL)の理論的枠組みを提案する。
本研究は,実践的アライメント技術と理論的保証のギャップを埋め,アライメント行動の学習の原則的基盤を提供するものである。
論文 参考訳(メタデータ) (2025-05-17T06:09:13Z) - DecompDreamer: A Composition-Aware Curriculum for Structured 3D Asset Generation [33.83145407871559]
DecompDreamerは、暗黙のカリキュラムとして機能する新しい最適化戦略に基づいて構築されたフレームワークである。
本手法はまず, 物体間関係を優先し, 個別成分の高忠実度化に移行してコヒーレントな構造足場を構築する。
論文 参考訳(メタデータ) (2025-03-15T03:37:25Z) - SYNTHIA: Novel Concept Design with Affordance Composition [114.19366716161655]
所望の価格に基づいて,新規で機能的なコヒーレントなデザインを生成するためのフレームワークであるSynTHIAを紹介する。
我々は,我々のオントロジーに基づくカリキュラム学習手法を開発し,細粒度T2Iモデルと対比して,段階的に手頃な構成を学習する。
実験の結果,SynTHIAは最先端のT2Iモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-25T02:54:11Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - CoinSeg: Contrast Inter- and Intra- Class Representations for
Incremental Segmentation [85.13209973293229]
クラスインクリメンタルセマンティックセグメンテーションは、モデルの安定性と可塑性のバランスをとることを目的としている。
インクリメンタル(CoinSeg)のためのコントラスト間およびクラス内表現を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。