Fugu-MT 論文翻訳(概要): Demonstrating Multi-Suction Item Picking at Scale via Multi-Modal Learning of Pick Success

論文の概要: Demonstrating Multi-Suction Item Picking at Scale via Multi-Modal Learning of Pick Success

arxiv url: http://arxiv.org/abs/2506.10359v1
Date: Thu, 12 Jun 2025 05:35:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.585614
Title: Demonstrating Multi-Suction Item Picking at Scale via Multi-Modal Learning of Pick Success
Title（参考訳）: ピック成功のマルチモーダル学習による大規模マルチ吸引項目選択の実証
Authors: Che Wang, Jeroen van Baar, Chaitanya Mitash, Shuai Li, Dylan Randle, Weiyao Wang, Sumedh Sontakke, Kostas E. Bekris, Kapil Katyal,
Abstract要約: この研究は、ロボット操作の自律的な学習が、パフォーマンスを向上させるソリューションを提供する方法を示す。具体的には,マルチ誘引ロボットピックに着目し,ロボットピックの成功を予測するためのマルチモーダル視覚エンコーダの適用に関する総合的研究を行う。
参考スコア（独自算出の注目度）: 24.24429138384878
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work demonstrates how autonomously learning aspects of robotic operation from sparsely-labeled, real-world data of deployed, engineered solutions at industrial scale can provide with solutions that achieve improved performance. Specifically, it focuses on multi-suction robot picking and performs a comprehensive study on the application of multi-modal visual encoders for predicting the success of candidate robotic picks. Picking diverse items from unstructured piles is an important and challenging task for robot manipulation in real-world settings, such as warehouses. Methods for picking from clutter must work for an open set of items while simultaneously meeting latency constraints to achieve high throughput. The demonstrated approach utilizes multiple input modalities, such as RGB, depth and semantic segmentation, to estimate the quality of candidate multi-suction picks. The strategy is trained from real-world item picking data, with a combination of multimodal pretrain and finetune. The manuscript provides comprehensive experimental evaluation performed over a large item-picking dataset, an item-picking dataset targeted to include partial occlusions, and a package-picking dataset, which focuses on containers, such as boxes and envelopes, instead of unpackaged items. The evaluation measures performance for different item configurations, pick scenes, and object types. Ablations help to understand the effects of in-domain pretraining, the impact of different modalities and the importance of finetuning. These ablations reveal both the importance of training over multiple modalities but also the ability of models to learn during pretraining the relationship between modalities so that during finetuning and inference, only a subset of them can be used as input.
Abstract（参考訳）: この研究は、産業規模で展開されたエンジニアリングされたソリューションの、わずかにラベル付けされた実世界のデータから、ロボット操作の自律的に学習することで、パフォーマンスを向上させるソリューションをいかに実現できるかを実証する。具体的には,マルチ誘引ロボットピックに着目し,ロボットピックの成功を予測するためのマルチモーダル視覚エンコーダの適用に関する総合的研究を行う。非構造的な山からさまざまなアイテムを選ぶことは、倉庫などの現実の環境でロボットを操作する上で、重要かつ困難な作業である。クラッタから選択する方法は、高いスループットを達成するためにレイテンシ制約を同時に満たしながら、オープンなアイテムセットのために機能しなければなりません。提案手法は, RGB, 深さ, セマンティックセグメンテーションなどの複数の入力モダリティを用いて, 候補としたマルチ吸引ピックの品質を推定する。この戦略は、マルチモーダルプレトレインとファインチューンを組み合わせて、現実世界のアイテムピッキングデータから訓練されている。原稿は、大きなアイテムピッキングデータセット、部分閉塞を含むことを目的としたアイテムピッキングデータセット、パッケージピッキングデータセット、パッケージされていないアイテムではなく、ボックスやエンベロープなどのコンテナに焦点を当てたパッケージピッキングデータセットに対して、包括的な実験的評価を提供する。評価は、異なるアイテム構成、ピックシーン、オブジェクトタイプのパフォーマンスを測定する。アブレーションは、ドメイン内の事前訓練の効果、異なるモダリティの影響、微調整の重要性を理解するのに役立つ。これらのアブリゲーションは、複数のモダリティに対するトレーニングの重要性だけでなく、モダリティ間の関係を事前訓練する際に学習するモデルの能力も示しており、微調整と推論の間は、そのサブセットのみを入力として使用できる。

関連論文リスト

COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning [19.173177969412656]
数発の模倣学習において,COLLAGEはCOLLective Data AGgrEgationの手法である。 Collageは適応的なレイトフュージョン機構を使用して、複数のキューのタスク固有の組み合わせに基づいて、関連するデモの選択をガイドする。コラージュは最先端の検索とマルチタスク学習の手法を10タスクで5.1%、現実世界では6タスクで16.6%上回っている。
論文参考訳（メタデータ） (2025-08-02T01:23:09Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文参考訳（メタデータ） (2023-06-19T04:33:44Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Efficient and Robust Training of Dense Object Nets for Multi-Object Robot Manipulation [8.321536457963655]
我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。本研究は,多目的データを用いた学習に重点を置いている。実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
論文参考訳（メタデータ） (2022-06-24T08:24:42Z)
Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。本稿では,新しい汎用能動学習法(GEAL)を提案する。提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文参考訳（メタデータ） (2021-12-15T08:35:28Z)
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2021-12-02T18:59:50Z)
Mixing Deep Learning and Multiple Criteria Optimization: An Application to Distributed Learning with Multiple Datasets [0.0]
トレーニングフェーズは、マシンラーニングプロセスにおいて最も重要なステージです。本研究では,特定の入力とラベルに関連付けられた出力との距離を基準として,複数の基準最適化モデルを構築した。 MNISTデータを用いた数値分類において,このモデルと数値実験を実現するためのスカラー化手法を提案する。
論文参考訳（メタデータ） (2021-12-02T16:00:44Z)
Pretext Tasks selection for multitask self-supervised speech representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文参考訳（メタデータ） (2021-07-01T16:36:29Z)
Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文参考訳（メタデータ） (2021-01-16T23:45:02Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。