論文の概要: MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection
- arxiv url: http://arxiv.org/abs/2507.04351v1
- Date: Sun, 06 Jul 2025 11:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.134005
- Title: MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection
- Title(参考訳): MLLM-Fabric: ファブリックソーティングと選択のためのマルチモーダル大言語モデル駆動型ロボットフレームワーク
- Authors: Liman Wang, Hanyang Zhong, Tianyuan Wang, Shan Luo, Jihong Zhu,
- Abstract要約: MLLM-Fabricは,マルチモーダルな大規模言語モデル(MLLM)を用いて,ファブリックのソートと選別を行うロボットフレームワークである。
このシステムには、ロボットアーム、カメラ、粘菌センサー、圧力センサーが含まれる。
ファブリック特性を正確に分類しランク付けするために、教師付き微調整およびマルチモーダルな説明誘導知識蒸留を用いる。
- 参考スコア(独自算出の注目度): 5.24223182622147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Choosing the right fabric is crucial to meet functional and quality requirements in robotic applications for textile manufacturing, apparel production, and smart retail. We present MLLM-Fabric, a robotic framework powered by multimodal large language models (MLLMs) for fabric sorting and selection. The system includes a robotic arm, a camera, a visuotactile sensor, and a pressure sensor. It employs supervised fine-tuning and multimodal explanation-guided knowledge distillation to accurately classify and rank fabric properties. To facilitate further research, we release a dataset of 220 unique fabric samples, including RGB images and synchronized visuotactile and pressure data. Experimental results show that our Fabric-Llama-90B model consistently outperforms pretrained vision-language baselines in both property ranking accuracy and selection reliability.
- Abstract(参考訳): 繊維製造、アパレル製造、スマート小売のためのロボット応用における機能的および品質要件を満たすためには、適切な布地を選択することが不可欠である。
MLLM-Fabricは,マルチモーダルな大規模言語モデル(MLLM)を用いて,ファブリックのソートと選別を行うロボットフレームワークである。
このシステムには、ロボットアーム、カメラ、粘菌センサー、圧力センサーが含まれる。
ファブリック特性を正確に分類しランク付けするために、教師付き微調整およびマルチモーダルな説明誘導知識蒸留を用いる。
さらなる研究を容易にするために,RGB画像と同期ビズオタクタブルおよび圧力データを含む220種類のユニークな布地サンプルのデータセットを作成した。
実験結果から,Fabric-Llama-90Bモデルは,特性ランク付け精度と選択信頼性の両方において,事前学習された視覚言語ベースラインより一貫して優れていた。
関連論文リスト
- Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - One-Class Model for Fabric Defect Detection [33.70399882454028]
ファブリックの種類によって異なる欠陥を検知できる新しい一級モデルを提案する。
我々のモデルは、よく設計されたGaborフィルタバンクを利用して、布質のテクスチャを解析する。
次に、高度なディープラーニングアルゴリズムであるオートエンコーダを利用して、Gaborフィルタバンクの出力から一般的な特徴表現を学習する。
論文 参考訳(メタデータ) (2022-04-20T17:46:30Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。