Fugu-MT 論文翻訳(概要): LEGO Co-builder: Exploring Fine-Grained Vision-Language Modeling for Multimodal LEGO Assembly Assistants

論文の概要: LEGO Co-builder: Exploring Fine-Grained Vision-Language Modeling for Multimodal LEGO Assembly Assistants

arxiv url: http://arxiv.org/abs/2507.05515v2
Date: Wed, 23 Jul 2025 05:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-24 14:06:49.586668
Title: LEGO Co-builder: Exploring Fine-Grained Vision-Language Modeling for Multimodal LEGO Assembly Assistants
Title（参考訳）: LEGOコビルダー:マルチモーダルなLEGOアセンブリアシスタントのための細粒度ビジョンランゲージモデリング
Authors: Haochen Huang, Jiahuan Pei, Mohammad Aliannejadi, Xin Sun, Moonisa Ahsan, Chuang Yu, Zhaochun Ren, Pablo Cesar, Junxiao Wang,
Abstract要約: 我々は、統合されたフレームワークを導入し、ゼロショットおよび微調整された設定下で、主要なビジョンモデルを評価する。 GPT-4oのような高度なモデルでさえ、微細な組み立て作業に苦労し、視覚的理解のギャップを浮き彫りにしていることが明らかとなった。
参考スコア（独自算出の注目度）: 22.6701800159627
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) are facing the challenges of understanding and following multimodal assembly instructions, particularly when fine-grained spatial reasoning and precise object state detection are required. In this work, we explore LEGO Co-builder, a hybrid benchmark combining real-world LEGO assembly logic with programmatically generated multimodal scenes. The dataset captures stepwise visual states and procedural instructions, allowing controlled evaluation of instruction-following, object detection, and state detection. We introduce a unified framework and assess leading VLMs such as GPT-4o, Gemini, and Qwen-VL, under zero-shot and fine-tuned settings. Our results reveal that even advanced models like GPT-4o struggle with fine-grained assembly tasks, with a maximum F1 score of just 40.54\% on state detection, highlighting gaps in fine-grained visual understanding. We release the benchmark, codebase, and generation pipeline to support future research on multimodal assembly assistants grounded in real-world workflows.
Abstract（参考訳）: 視覚言語モデル(VLM)は、特にきめ細かい空間的推論と正確なオブジェクト状態検出が必要な場合、多モーダルなアセンブリ命令を理解し、従うという課題に直面している。本研究では,実世界のLEGOアセンブリロジックとプログラムで生成されたマルチモーダルシーンを組み合わせたハイブリッドベンチマークであるLEGO Co-builderについて検討する。このデータセットは、段階的に視覚状態と手続き的命令をキャプチャし、命令追従、オブジェクト検出、状態検出の制御を可能にする。本稿では,GPT-4o,Gemini,Qwen-VLなどの主要なVLMを,ゼロショットおよび微調整設定下で評価する統合フレームワークを提案する。 GPT-4oのような高度なモデルでさえ、微細な組立タスクに苦戦し、最大F1スコアは40.54 %であり、きめ細かい視覚的理解のギャップを浮き彫りにしている。ベンチマーク、コードベース、生成パイプラインをリリースし、現実世界のワークフローを基盤としたマルチモーダルアセンブリアシスタントの今後の研究を支援します。

関連論文リスト

RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [80.20970723577818]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文参考訳（メタデータ） (2025-06-07T06:15:49Z)
OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。 OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文参考訳（メタデータ） (2025-05-24T16:29:34Z)
COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文参考訳（メタデータ） (2025-04-02T03:12:38Z)
MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。 MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文参考訳（メタデータ） (2025-03-11T03:13:45Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。 MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
本稿では,視覚言語ナビゲーション(VLN)タスクに対して,問題を4つのサブモジュールに分解してモジュール化する手法を提案する。自然言語によるナビゲーションの指導を受けると、まずLLMにランドマークと訪問順序を抽出するよう促す。環境のトポロジカルマップ上の最短経路アルゴリズムを用いて,開始位置から最終ランドマークまでの経路仮説を生成する。
論文参考訳（メタデータ） (2025-02-11T07:09:37Z)
TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning [27.725814615823687]
本研究では,計画段階と実行段階の誤りを訂正する"plug-and-play"手法であるExoViPを提案する。我々は、現在の視覚言語プログラミング手法を強化するために、検証モジュールを"exoskeletons"として採用する。
論文参考訳（メタデータ） (2024-08-05T03:22:10Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
RS-GPT4V: A Unified Multimodal Instruction-Following Dataset for Remote Sensing Image Understanding [4.266920365127677]
新しいLaGDパラダイムの下では、古いデータセットはもはや新しいタスクには適していない。我々は、RSI理解のための高品質で多様なマルチモーダル命令追従データセットを設計した。実験結果から, RS-GPT4Vによる微調整MLLMは, きめ細かい情報を記述できることがわかった。
論文参考訳（メタデータ） (2024-06-18T10:34:28Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models [45.040292339670096]
大規模視覚言語モデル(LVLM)は、その強力な推論と一般化能力を備えた幅広い視覚言語タスクの前提を示してきた。本研究では,従来のLVLMとリソースフレンドリなライトバージョンのパフォーマンスギャップを,高品質なトレーニングデータを用いて橋渡しすることを目的とする。
論文参考訳（メタデータ） (2024-02-18T19:26:49Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-07T03:51:21Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。