Fugu-MT 論文翻訳(概要): MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection

論文の概要: MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection

arxiv url: http://arxiv.org/abs/2507.04351v2
Date: Fri, 10 Oct 2025 23:37:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 20:23:38.874284
Title: MLLM-Fabric: Multimodal Large Language Model-Driven Robotic Framework for Fabric Sorting and Selection
Title（参考訳）: MLLM-Fabric: ファブリックソーティングと選択のためのマルチモーダル大言語モデル駆動型ロボットフレームワーク
Authors: Liman Wang, Hanyang Zhong, Tianyuan Wang, Shan Luo, Jihong Zhu,
Abstract要約: 本稿では,マルチモーダル大言語モデル(MLLM)を利用したファブリックソートと選択のためのロボットフレームワークを提案する。マルチモーダルなロボットプラットフォーム上に構築されたこのシステムは、ファブリック特性のランク付けのために、教師付き微調整と説明誘導蒸留によって訓練される。実験の結果,Fabric-Llama-90Bは属性ランキングと選択信頼性の両方において,事前学習された視覚言語ベースラインより一貫して優れていた。
参考スコア（独自算出の注目度）: 3.6792973049913567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Choosing appropriate fabrics is critical for meeting functional and quality demands in robotic textile manufacturing, apparel production, and smart retail. We propose MLLM-Fabric, a robotic framework leveraging multimodal large language models (MLLMs) for fabric sorting and selection. Built on a multimodal robotic platform, the system is trained through supervised fine-tuning and explanation-guided distillation to rank fabric properties. We also release a dataset of 220 diverse fabrics, each with RGB images and synchronized visuotactile and pressure data. Experiments show that our Fabric-Llama-90B consistently outperforms pretrained vision-language baselines in both attribute ranking and selection reliability. Code and dataset are publicly available at https://github.com/limanwang/MLLM-Fabric.
Abstract（参考訳）: 適切な織物を選択することは、ロボット織物製造、アパレル製造、スマート小売における機能的および品質要求を満たすために重要である。本稿では,マルチモーダルな大規模言語モデル(MLLM)をファブリックのソートと選択に活用したロボットフレームワークMLLM-Fabricを提案する。マルチモーダルなロボットプラットフォーム上に構築されたこのシステムは、ファブリック特性のランク付けのために、教師付き微調整と説明誘導蒸留によって訓練される。また、RGB画像と同期ビズオタクティルおよび圧力データを備えた220種類の多種布のデータセットもリリースした。実験の結果,Fabric-Llama-90Bは属性ランキングと選択信頼性の両方において,事前学習された視覚言語ベースラインより一貫して優れていた。コードとデータセットはhttps://github.com/limanwang/MLLM-Fabric.comで公開されている。

関連論文リスト

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion [42.60008616386837]
音声誘導機械翻訳(SMT)フレームワークは、音声とテキストを融合入力としてMLLMに統合し、翻訳品質を向上させる。このフレームワークのコアコンポーネントは、合成音声を生成するためのテキスト音声モデルと、合成音声サンプルを分類可能なMLLMである。
論文参考訳（メタデータ） (2026-02-25T07:19:34Z)
Multimodal LLMs for Historical Dataset Construction from Archival Image Scans: German Patents (1877-1918) [0.0]
我々は、多モーダル大言語モデル(LLM)を活用して、306,070のドイツの特許のデータセットを構築する(1877-1918) 我々のベンチマークは、マルチモーダルLLMが研究アシスタントよりも高品質なデータセットを作成できるという仮の証拠を提供する。約20から50の特許項目が各ページに埋め込まれ、二重カラム形式で配置され、ゴシック文字とローマ文字で印刷される。
論文参考訳（メタデータ） (2025-12-22T18:53:03Z)
Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models [70.41727912081463]
マルチモーダル大言語モデル(MLLM)は視覚タスクにおいて急速に進歩しているが、空間的理解は単一画像に限られている。本研究では, 深度知覚, 視覚対応, 動的知覚を統合することで, MLLMを頑健なマルチフレーム空間理解と組み合わせる枠組みを提案する。我々のモデルであるMulti-SpatialMLLMは、ベースラインやプロプライエタリシステムよりも大幅に向上し、スケーラブルで一般化可能なマルチフレーム推論を実証する。
論文参考訳（メタデータ） (2025-05-22T17:59:39Z)
Knitting Robots: A Deep Learning Approach for Reverse-Engineering Fabric Patterns [0.0]
この研究は、繊維生産とロボット自動化のギャップを埋めるために、逆編みのための新しいディープラーニングベースのパイプラインを提案する。このパイプラインは2段階のアーキテクチャを採用しており、ロボットはまず、完全なラベルを推測する前にフロントラベルを識別することができる。この研究は、完全に自動化されたロボット編み物のシステムの基礎を確立し、カスタマイズ可能で柔軟な生産プロセスを可能にする。
論文参考訳（メタデータ） (2025-04-18T18:00:37Z)
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-09-26T17:26:16Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models [97.40590590880144]
MLLM(Multimodality Large Language Model)シリーズを開発した。我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
論文参考訳（メタデータ） (2024-02-08T18:59:48Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
One-Class Model for Fabric Defect Detection [33.70399882454028]
ファブリックの種類によって異なる欠陥を検知できる新しい一級モデルを提案する。我々のモデルは、よく設計されたGaborフィルタバンクを利用して、布質のテクスチャを解析する。次に、高度なディープラーニングアルゴリズムであるオートエンコーダを利用して、Gaborフィルタバンクの出力から一般的な特徴表現を学習する。
論文参考訳（メタデータ） (2022-04-20T17:46:30Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。