論文の概要: Multimodal Fused Learning for Solving the Generalized Traveling Salesman Problem in Robotic Task Planning
- arxiv url: http://arxiv.org/abs/2506.16931v1
- Date: Fri, 20 Jun 2025 11:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.430869
- Title: Multimodal Fused Learning for Solving the Generalized Traveling Salesman Problem in Robotic Task Planning
- Title(参考訳): ロボット作業計画における汎用トラベリングセールスマン問題の解法のためのマルチモーダルフューズドラーニング
- Authors: Jiaqi Chen, Mingfeng Fan, Xuefeng Zhang, Jingsong Liang, Yuhong Cao, Guohua Wu, Guillaume Adrien Sartoretti,
- Abstract要約: 汎用トラベリングセールスマン問題(GTSP)を解決するための多モード融合学習フレームワークを提案する。
まず、GTSPインスタンスを空間情報表現に変換する座標ベースのイメージビルダーを紹介する。
次に、異なる問題スケールにわたる適応性を高めるための適応分解能スケーリング戦略を設計し、マルチモーダル融合モジュールを開発する。
- 参考スコア(独自算出の注目度): 11.697279328699489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective and efficient task planning is essential for mobile robots, especially in applications like warehouse retrieval and environmental monitoring. These tasks often involve selecting one location from each of several target clusters, forming a Generalized Traveling Salesman Problem (GTSP) that remains challenging to solve both accurately and efficiently. To address this, we propose a Multimodal Fused Learning (MMFL) framework that leverages both graph and image-based representations to capture complementary aspects of the problem, and learns a policy capable of generating high-quality task planning schemes in real time. Specifically, we first introduce a coordinate-based image builder that transforms GTSP instances into spatially informative representations. We then design an adaptive resolution scaling strategy to enhance adaptability across different problem scales, and develop a multimodal fusion module with dedicated bottlenecks that enables effective integration of geometric and spatial features. Extensive experiments show that our MMFL approach significantly outperforms state-of-the-art methods across various GTSP instances while maintaining the computational efficiency required for real-time robotic applications. Physical robot tests further validate its practical effectiveness in real-world scenarios.
- Abstract(参考訳): 効率的なタスクプランニングは、特に倉庫の回収や環境モニタリングといったアプリケーションにおいて、移動ロボットにとって不可欠である。
これらのタスクは、複数のターゲットクラスタから1つの場所を選択することを含み、GTSP(Generalized Traveling Salesman Problem)を形成する。
これを解決するために,グラフと画像に基づく表現を併用したMMFL(Multimodal Fused Learning)フレームワークを提案し,高品質なタスク計画スキームをリアルタイムで生成可能なポリシーを学習する。
具体的には、まずGTSPインスタンスを空間情報表現に変換する座標ベースのイメージビルダーを紹介する。
次に、異なる問題スケールにわたる適応性を高めるための適応分解能スケーリング戦略を設計し、幾何学的特徴と空間的特徴の効果的な統合を可能にする専用のボトルネックを持つマルチモーダル融合モジュールを開発する。
我々のMMFLアプローチは、リアルタイムロボットアプリケーションに必要な計算効率を維持しつつ、様々なGTSPインスタンスで最先端の手法を大幅に上回ることを示した。
物理ロボットテストは、実世界のシナリオにおける実用性をさらに検証する。
関連論文リスト
- Towards Unified Modeling in Federated Multi-Task Learning via Subspace Decoupling [23.642760378344335]
Federated Multi-Task Learning (FMTL) は、複数のクライアントがローカルデータを交換することなく異種タスクを実行できる。
既存のFMTLメソッドのほとんどは、各クライアント用にパーソナライズされたモデルを構築することに集中しており、複数の異種タスクの集約を統一モデルにサポートできない。
マルチタスクモデル統合に特化して設計された更新構造対応アグリゲーション手法であるFedDEAを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:53:21Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Planning-Guided Diffusion Policy Learning for Generalizable Contact-Rich Bimanual Manipulation [16.244250979166214]
Generalizable Planning-Guided Diffusion Policy Learning (GLIDE)は、コンタクトリッチな双方向操作タスクを解決するためのアプローチである。
本稿では,特徴抽出,タスク表現,行動予測,データ拡張における重要な設計オプションのセットを提案する。
本手法は, 多様な地形, 寸法, 物理的特性の物体を効果的に操作することができる。
論文 参考訳(メタデータ) (2024-12-03T18:51:39Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - TOP-Former: A Multi-Agent Transformer Approach for the Team Orienteering Problem [47.40841984849682]
車両群のためのルートプランニングは、荷物の配送、監視、輸送といった応用において重要な課題である。
ToP-Formerは、チームのオリエンテーリング問題を効率的に正確に解くために設計されたマルチエージェント経路計画ニューラルネットワークである。
論文 参考訳(メタデータ) (2023-11-30T16:10:35Z) - A Transformer Framework for Data Fusion and Multi-Task Learning in Smart
Cities [99.56635097352628]
本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。
ほぼ全ての入力データと出力タスクタイプをサポートし、現在のS&CCをサポートする。
S&CC環境を代表する多様なタスクセットを学習して実演する。
論文 参考訳(メタデータ) (2022-11-18T20:43:09Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。