論文の概要: Human-Aligned Procedural Level Generation Reinforcement Learning via Text-Level-Sketch Shared Representation
- arxiv url: http://arxiv.org/abs/2508.09860v1
- Date: Wed, 13 Aug 2025 14:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.936928
- Title: Human-Aligned Procedural Level Generation Reinforcement Learning via Text-Level-Sketch Shared Representation
- Title(参考訳): テキストLevel-Sketch共有表現によるヒューマンアラインな手続きレベル生成強化学習
- Authors: In-Chang Baek, Seoyoung Lee, Sung-Hyun Kim, Geumhwan Hwang, KyungJoong Kim,
- Abstract要約: VIPCGRLは、3つのモダリティ(テキスト、レベル、スケッチ)を組み込んだ新しい強化学習フレームワークである。
モーダル性や人間-AIスタイルにまたがる4倍のコントラスト学習を通じて訓練された共有埋め込み空間を導入し,埋め込み類似性に基づく補助報酬を用いてポリシーを整合させる。
- 参考スコア(独自算出の注目度): 4.949352356120632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-aligned AI is a critical component of co-creativity, as it enables models to accurately interpret human intent and generate controllable outputs that align with design goals in collaborative content creation. This direction is especially relevant in procedural content generation via reinforcement learning (PCGRL), which is intended to serve as a tool for human designers. However, existing systems often fall short of exhibiting human-centered behavior, limiting the practical utility of AI-driven generation tools in real-world design workflows. In this paper, we propose VIPCGRL (Vision-Instruction PCGRL), a novel deep reinforcement learning framework that incorporates three modalities-text, level, and sketches-to extend control modality and enhance human-likeness. We introduce a shared embedding space trained via quadruple contrastive learning across modalities and human-AI styles, and align the policy using an auxiliary reward based on embedding similarity. Experimental results show that VIPCGRL outperforms existing baselines in human-likeness, as validated by both quantitative metrics and human evaluations. The code and dataset will be available upon publication.
- Abstract(参考訳): モデルが人間の意図を正確に解釈し、協調コンテンツ作成における設計目標に沿った制御可能なアウトプットを生成することができるため、ヒューマンアライメントAIはコクリエーションの重要なコンポーネントである。
この方向は、人間設計者のためのツールとして機能することを意図した強化学習(PCGRL)による手続き的コンテンツ生成に特に関係している。
しかし、既存のシステムは人間中心の振る舞いを示すのに足りず、現実世界の設計ワークフローにおけるAI駆動生成ツールの実用性を制限することが多い。
本稿では,3つのモダリティ(テキスト,レベル,スケッチ)を組み込んだ新しい強化学習フレームワークであるVIPCGRL(Vision-Instruction PCGRL)を提案する。
モーダル性や人間-AIスタイルにまたがる4倍のコントラスト学習を通じて訓練された共有埋め込み空間を導入し,埋め込み類似性に基づく補助報酬を用いてポリシーを整合させる。
実験結果から,VIPCGRLは,測定値と人的評価値の両方で評価されるように,人的類似性において既存のベースラインよりも優れていたことが示唆された。
コードとデータセットは公開時に公開される。
関連論文リスト
- Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文 参考訳(メタデータ) (2025-04-07T03:48:02Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data [96.5899286619008]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Learning Intuitive Policies Using Action Features [7.260481131198059]
ネットワークアーキテクチャが意味的関係を利用する学習アルゴリズムの妥当性に与える影響について検討する。
観察と行動の卓越した表現を共同で処理する注意に基づくアーキテクチャは、直感的なポリシーを学ぶ上でより良い帰納的バイアスをもたらす。
論文 参考訳(メタデータ) (2022-01-29T20:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。