Fugu-MT 論文翻訳(概要): Diffusion Reinforcement Learning Based Online 3D Bin Packing Spatial Strategy Optimization

論文の概要: Diffusion Reinforcement Learning Based Online 3D Bin Packing Spatial Strategy Optimization

arxiv url: http://arxiv.org/abs/2604.10953v1
Date: Mon, 13 Apr 2026 03:50:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.298954
Title: Diffusion Reinforcement Learning Based Online 3D Bin Packing Spatial Strategy Optimization
Title（参考訳）: オンライン3次元ビンパッケージ空間戦略最適化に基づく拡散強化学習
Authors: Jie Han, Tong Li, Qingyang Xu, Yong Song, Bao Pang, Xianfeng Yuan,
Abstract要約: オンライン3Dビンパッキング問題は、物流、倉庫、インテリジェントな製造において重要である。本稿では,マルコフ決定連鎖を用いた拡散強化学習に基づくアルゴリズムを提案する。実験の結果,最新のDRL法と比較すると,充填品数の平均は有意に改善した。
参考スコア（独自算出の注目度）: 10.773877323537235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The online 3D bin packing problem is important in logistics, warehousing and intelligent manufacturing, with solutions shifting to deep reinforcement learning (DRL) which faces challenges like low sample efficiency. This paper proposes a diffusion reinforcement learning-based algorithm, using a Markov decision chain for packing modeling, height map-based state representation and a diffusion model-based actor network. Experiments show it significantly improves the average number of packed items compared to state-of-the-art DRL methods, with excellent application potential in complex online scenarios.
Abstract（参考訳）: オンラインの3Dビンパッキング問題は、ロジスティクス、ウェアハウス、インテリジェントな製造において重要であり、ソリューションはサンプル効率の低下といった課題に直面している深層強化学習(DRL)へとシフトしている。本稿では,マルコフ決定連鎖を用いた拡散強化学習に基づくアルゴリズムを提案する。実験により、複雑なオンラインシナリオにおいて優れた応用可能性を持ちながら、最先端のDRL手法と比較して、充填アイテムの平均数を大幅に改善することが示された。

関連論文リスト

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning [7.493047521402676]
本稿では,RL(Reinforcement Learning)を用いた3次元拡散モデルの改良手法を提案する。 2次元スライス・アセスメントと3次元解析を統合した新たな報酬システムによって導かれるPPO(Proximal Policy Optimization)を用いてモデルを微調整する。以上の結果から,RLフィードバックを組み込むことで,より高品質な分散を実現することが可能であることが示唆された。
論文参考訳（メタデータ） (2026-03-06T11:30:55Z)
3D-Learning: Diffusion-Augmented Distributionally Robust Decision-Focused Learning [7.497355941969675]
分布ロバストな意思決定型学習(DR-DFL)の枠組みについて述べる。 DR-DFLはMLモデルをトレーニングし、最悪の場合の判定性能を最適化する。拡散モデルの強力な分布モデリング機能を活用することで、3Dラーニングは実データと整合した最悪の分布を特定する。
論文参考訳（メタデータ） (2026-02-03T00:37:22Z)
Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward [93.04811239892852]
強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
論文参考訳（メタデータ） (2025-11-03T14:57:57Z)
Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文参考訳（メタデータ） (2025-10-27T05:47:48Z)
Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。 i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文参考訳（メタデータ） (2025-10-13T17:57:15Z)
Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model [81.01939699480094]
本稿では,MVSに拡散モデルを導入する新しいMVSフレームワークを提案する。深度推定の識別特性を考慮し,拡散過程を導出する条件エンコーダを設計する。本稿では,新しいMVSフレームワークであるDiffMVSとCasMVSの2つの新しいMVS手法を提案する。
論文参考訳（メタデータ） (2025-09-18T17:59:19Z)
Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors [75.24313405671433]
拡散に基づく画像超解像法 (SR) は、事前訓練された大規模なテキスト・画像拡散モデルを先行として活用することにより、顕著な成功を収めた。本稿では,拡散型SR手法の効率問題に対処する新しい一段階SRモデルを提案する。既存の微調整戦略とは異なり、SR専用の劣化誘導低ランク適応 (LoRA) モジュールを設計した。
論文参考訳（メタデータ） (2024-09-25T16:15:21Z)
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [3.2288603733409498]
条件拡散モデルを適応可能な行動として扱う政策枠組みを厳格に提示する。前者はログ化されたデータに基づいて事前訓練され、サンプリング時にのみオンラインで、現在のポリシーステートでのアクションの提案に使用される。以上の結果から,事前の適応的拡散行動は,緊密な相互作用予算の下での政策PPOを強化するための実践的な方法であることが示唆された。
論文参考訳（メタデータ） (2024-09-02T19:10:32Z)
Reinforcement Learning to Optimize the Logistics Distribution Routes of Unmanned Aerial Vehicle [0.0]
本稿では,複数のノフライゾーンを含む複雑な環境下でUAVの経路計画を実現するための改良手法を提案する。その結果,このような複雑な状況に適応するモデルの有効性と効率性が示された。
論文参考訳（メタデータ） (2020-04-21T09:42:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。