論文の概要: mrCAD: Multimodal Refinement of Computer-aided Designs
- arxiv url: http://arxiv.org/abs/2504.20294v1
- Date: Mon, 28 Apr 2025 22:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.686646
- Title: mrCAD: Multimodal Refinement of Computer-aided Designs
- Title(参考訳): mrCAD: コンピュータ支援デザインのマルチモーダルリファインメント
- Authors: William P. McCarthy, Saujas Vaduguru, Karl D. D. Willis, Justin Matejka, Judith E. Fan, Daniel Fried, Yewen Pu,
- Abstract要約: mrCADは、6,082のコミュニケーションゲーム、15,163の命令実行ラウンドで構成され、1,092対の人間プレイヤーの間でプレイされる。
データセットを解析し、描画とテキストの合成において生成と洗練の指示が異なることを確認する。
mrCADタスクをベンチマークとして、最先端のVLMは改良命令よりも生成命令に従う方が優れている。
- 参考スコア(独自算出の注目度): 20.693482164096146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key feature of human collaboration is the ability to iteratively refine the concepts we have communicated. In contrast, while generative AI excels at the \textit{generation} of content, it often struggles to make specific language-guided \textit{modifications} of its prior outputs. To bridge the gap between how humans and machines perform edits, we present mrCAD, a dataset of multimodal instructions in a communication game. In each game, players created computer aided designs (CADs) and refined them over several rounds to match specific target designs. Only one player, the Designer, could see the target, and they must instruct the other player, the Maker, using text, drawing, or a combination of modalities. mrCAD consists of 6,082 communication games, 15,163 instruction-execution rounds, played between 1,092 pairs of human players. We analyze the dataset and find that generation and refinement instructions differ in their composition of drawing and text. Using the mrCAD task as a benchmark, we find that state-of-the-art VLMs are better at following generation instructions than refinement instructions. These results lay a foundation for analyzing and modeling a multimodal language of refinement that is not represented in previous datasets.
- Abstract(参考訳): 人間のコラボレーションの重要な特徴は、私たちがコミュニケーションした概念を反復的に洗練する能力です。
対照的に、生成的AIはコンテンツの「textit{gene}」に優れているが、以前の出力の特定の言語誘導「textit{modifications」を作るのに苦労することが多い。
本研究では,人間と機械の編集方法のギャップを埋めるために,コミュニケーションゲームにおけるマルチモーダル命令のデータセットであるmCADを提案する。
各ゲームにおいて、プレイヤーはコンピュータ支援デザイン(CAD)を作成し、特定のターゲットデザインに合わせて数ラウンドにわたって改良した。
1人のプレイヤー、デザイナだけがターゲットを見ることができ、もう1人のプレイヤー、メーカーにテキスト、描画、あるいはモダリティの組み合わせを指示しなければならない。
mrCADは6,082のコミュニケーションゲームと15,163の命令実行ラウンドで構成され、1,092対の人間プレイヤーの間でプレイされる。
データセットを解析し、描画とテキストの合成において生成と洗練の指示が異なることを確認する。
mrCADタスクをベンチマークとして、最先端のVLMは改良命令よりも生成命令に従う方が優れている。
これらの結果は、以前のデータセットで表現されていない改良のマルチモーダル言語を解析し、モデル化するための基礎を築いた。
関連論文リスト
- CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing [12.277838798842689]
テキストベースのCAD編集のための最初のフレームワークであるemphCAD-Editorを紹介する。
そこで本研究では,テキストベースのCAD編集の複合的な性質に対処するため,位置-then-infillフレームワークを提案する。
CAD-Editorは定量的にも質的にも優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2025-02-06T11:57:14Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization [12.12975824816803]
画像からのリバースエンジニアリング3Dコンピュータ支援設計(CAD)モデルは、多くのダウンストリームアプリケーションにとって重要な課題である。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
本稿では,連続的な属性値を予測する意味を持つ離散構造を条件としたTrAssemblerを提案する。
論文 参考訳(メタデータ) (2024-07-19T06:53:30Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - The Ink Splotch Effect: A Case Study on ChatGPT as a Co-Creative Game
Designer [2.778721019132512]
本稿では,大規模言語モデル(LLM)がゲームデザインにおいて,より効果的でハイレベルな創造的コラボレータや「マウス」として機能するかを考察する。
私たちのゴールは、AIアシスタントが人間のデザイナーによって実現された創造的な意図と比較して、ゲームに取って代わる品質を向上、妨げ、提供できるかどうかを判断することです。
論文 参考訳(メタデータ) (2024-03-04T20:14:38Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Instruction Clarification Requests in Multimodal Collaborative Dialogue
Games: Tasks, and an Analysis of the CoDraw Dataset [17.285206913252786]
本稿では,CoDrawにおける命令明確化要求(iCR)について解説する。
プレイヤーが自己動機的に生成する語彙的および意味論的に多様なiCRを含むことを示す。
次に、iCRの作成時期と認識方法の2つのタスクのベースラインモデルを定式化し、提供します。
論文 参考訳(メタデータ) (2023-02-28T08:41:53Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。