論文の概要: Multi-Objective Instruction-Aware Representation Learning in Procedural Content Generation RL
- arxiv url: http://arxiv.org/abs/2508.09193v1
- Date: Fri, 08 Aug 2025 09:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.599652
- Title: Multi-Objective Instruction-Aware Representation Learning in Procedural Content Generation RL
- Title(参考訳): 手続き型コンテンツ生成RLにおける多目的命令認識表現学習
- Authors: Sung-Hyun Kim, In-Chang Baek, Seo-Young Lee, Geum-Hwan Hwang, Kyung-Joong Kim,
- Abstract要約: コンテンツ生成のための多目的表現学習手法MIPCGRLを提案する。
提案手法は,最大13.8%の制御性向上を実現する。
- 参考スコア(独自算出の注目度): 4.949352356120632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative modeling emphasize the importance of natural language as a highly expressive and accessible modality for controlling content generation. However, existing instructed reinforcement learning for procedural content generation (IPCGRL) method often struggle to leverage the expressive richness of textual input, especially under complex, multi-objective instructions, leading to limited controllability. To address this problem, we propose \textit{MIPCGRL}, a multi-objective representation learning method for instructed content generators, which incorporates sentence embeddings as conditions. MIPCGRL effectively trains a multi-objective embedding space by incorporating multi-label classification and multi-head regression networks. Experimental results show that the proposed method achieves up to a 13.8\% improvement in controllability with multi-objective instructions. The ability to process complex instructions enables more expressive and flexible content generation.
- Abstract(参考訳): 生成モデリングの最近の進歩は、コンテンツ生成を制御するための高度に表現的でアクセスしやすいモダリティとして、自然言語の重要性を強調している。
しかし、既存の手続き的コンテンツ生成(IPCGRL)法では、特に複雑な多目的命令の下で、テキスト入力の表現豊かさを活用するのに苦労することが多く、制御性が制限される。
この問題に対処するために,文の埋め込みを条件として組み込んだ教材生成のための多目的表現学習法である \textit{MIPCGRL} を提案する。
MIPCGRLはマルチラベル分類とマルチヘッド回帰ネットワークを取り入れた多目的埋め込み空間を効果的に訓練する。
実験の結果,提案手法は最大13.8 %の制御性向上を達成できることがわかった。
複雑な命令を処理する能力により、より表現力が高く柔軟なコンテンツ生成が可能になる。
関連論文リスト
- IPCGRL: Language-Instructed Reinforcement Learning for Procedural Level Generation [11.71881275085903]
IPCGRLは、強化学習による指示に基づく手続き的コンテンツ生成手法である。
IPCGRL ゲームレベル条件を効果的に圧縮するためのタスク固有の埋め込み表現。
論文 参考訳(メタデータ) (2025-03-16T04:53:38Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。