論文の概要: CrochetBench: Can Vision-Language Models Move from Describing to Doing in Crochet Domain?
- arxiv url: http://arxiv.org/abs/2511.09483v1
- Date: Thu, 13 Nov 2025 01:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.588087
- Title: CrochetBench: Can Vision-Language Models Move from Describing to Doing in Crochet Domain?
- Title(参考訳): CrochetBench: ビジョンランゲージモデルは、記述からCrochetドメインへの移行が可能か?
- Authors: Peiyu Li, Xiaobao Huang, Nitesh V. Chawla,
- Abstract要約: CrochetBenchは、クローシェで手続き的推論を行うマルチモーダルな大規模言語モデルの能力を評価するためのベンチマークである。
我々はCrochetPARADE DSLを中間表現として採用し、構造検証と実行による機能評価を可能にした。
- 参考スコア(独自算出の注目度): 28.03599047627188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CrochetBench, a benchmark for evaluating the ability of multimodal large language models to perform fine-grained, low-level procedural reasoning in the domain of crochet. Unlike prior benchmarks that focus on high-level description or visual question answering, CrochetBench shifts the emphasis from describing to doing: models are required to recognize stitches, select structurally appropriate instructions, and generate compilable crochet procedures. We adopt the CrochetPARADE DSL as our intermediate representation, enabling structural validation and functional evaluation via execution. The benchmark covers tasks including stitch classification, instruction grounding, and both natural language and image-to-DSL translation. Across all tasks, performance sharply declines as the evaluation shifts from surface-level similarity to executable correctness, exposing limitations in long-range symbolic reasoning and 3D-aware procedural synthesis. CrochetBench offers a new lens for assessing procedural competence in multimodal models and highlights the gap between surface-level understanding and executable precision in real-world creative domains. Code is available at https://github.com/Peiyu-Georgia-Li/crochetBench.
- Abstract(参考訳): クロシェット領域における細粒度・低レベルの手続き的推論を行うためのマルチモーダルな大規模言語モデルの能力を評価するためのベンチマークであるクロシェットベンチを提案する。
ハイレベルな説明や視覚的な質問応答に焦点を当てた以前のベンチマークとは異なり、CrochetBench氏は、記述から実行への重点をシフトしている。
我々はCrochetPARADE DSLを中間表現として採用し、構造検証と実行による機能評価を可能にした。
このベンチマークは、縫合分類、命令接地、自然言語と画像からDSLへの翻訳の両方を含むタスクをカバーしている。
全てのタスクにおいて、評価が表面レベルの類似性から実行可能正しさに移行し、長距離記号推論の制限や3D対応の手続き合成が露呈するにつれて、パフォーマンスは急激に低下する。
CrochetBenchは、マルチモーダルモデルにおける手続き的能力を評価するための新しいレンズを提供する。
コードはhttps://github.com/Peiyu-Georgia-Li/crochetBench.comで公開されている。
関連論文リスト
- CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments [1.3999481573773072]
本稿では,命令追従機能の評価を行うマルチ言語ベンチマークを提案する。
本ベンチマークでは、初期問題に規定された事前定義された制約の順守と、フォローアップ命令に基づいて改善を行う能力の2つの主要な設定で命令に従うことを評価する。
論文 参考訳(メタデータ) (2025-10-31T15:47:07Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization [35.39571632348391]
少ないショット学習は、新しいタスクに対処できる表現を学習することを目的としている。
近年の研究では、クロスモーダル学習は、数発の分類において表現を改善することが示されている。
言語は豊かなモダリティであり、視覚的な学習を導くのに使うことができる。
論文 参考訳(メタデータ) (2024-05-29T04:29:12Z) - SemTra: A Semantic Skill Translator for Cross-Domain Zero-Shot Policy
Adaptation [6.876580618014666]
本研究では、ドメイン間のセッティングにおいて、セマンティックスキル、セマンティックな専門家の行動パターンのゼロショット適応能力について検討する。
本稿では,セマンティック・スキル・トランスレータ・フレームワークSemTraについて述べる。
我々はMeta-World、Franka Kitchen、RLBench、CARLA環境でフレームワークを評価した。
論文 参考訳(メタデータ) (2024-02-12T05:46:10Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Can Machines Read Coding Manuals Yet? -- A Benchmark for Building Better
Language Models for Code Understanding [3.98345038769576]
フォーラムの投稿で、質問に対する最良の回答を予測するなどのタスクに基づいて、コード理解を評価するためのベンチマークのセットを導出します。
我々は,これらのタスクにおける現状の言語モデルの性能を評価し,微調整による各タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2021-09-15T17:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。