論文の概要: StarFlow: Generating Structured Workflow Outputs From Sketch Images
- arxiv url: http://arxiv.org/abs/2503.21889v1
- Date: Thu, 27 Mar 2025 18:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 19:09:59.443533
- Title: StarFlow: Generating Structured Workflow Outputs From Sketch Images
- Title(参考訳): StarFlow: スケッチ画像から構造化ワークフロー出力を生成する
- Authors: Patrice Bechard, Chao Wang, Amirhossein Abaskohi, Juan Rodriguez, Christopher Pal, David Vazquez, Spandana Gella, Sai Rajeswar, Perouz Taslakian,
- Abstract要約: 本稿では,視覚言語モデルを用いたスケッチから構造化ワークフロー出力を生成するフレームワークであるStarFlowを紹介する。
アプローチの強みと限界を分析するために、複数の視覚言語モデルを微調整し、ベンチマークします。
この結果から,ファインタニングによりワークフロー生成が大幅に向上し,このタスクにおける視覚言語モデルの性能が向上することが示された。
- 参考スコア(独自算出の注目度): 10.870956565888545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Workflows are a fundamental component of automation in enterprise platforms, enabling the orchestration of tasks, data processing, and system integrations. Despite being widely used, building workflows can be complex, often requiring manual configuration through low-code platforms or visual programming tools. To simplify this process, we explore the use of generative foundation models, particularly vision-language models (VLMs), to automatically generate structured workflows from visual inputs. Translating hand-drawn sketches or computer-generated diagrams into executable workflows is challenging due to the ambiguity of free-form drawings, variations in diagram styles, and the difficulty of inferring execution logic from visual elements. To address this, we introduce StarFlow, a framework for generating structured workflow outputs from sketches using vision-language models. We curate a diverse dataset of workflow diagrams -- including synthetic, manually annotated, and real-world samples -- to enable robust training and evaluation. We finetune and benchmark multiple vision-language models, conducting a series of ablation studies to analyze the strengths and limitations of our approach. Our results show that finetuning significantly enhances structured workflow generation, outperforming large vision-language models on this task.
- Abstract(参考訳): ワークフローは、エンタープライズプラットフォームにおける自動化の基本的なコンポーネントであり、タスク、データ処理、システム統合のオーケストレーションを可能にする。
広く使われているにもかかわらず、ワークフローの構築は複雑であり、ローコードプラットフォームやビジュアルプログラミングツールを通じて手動で設定する必要があることが多い。
このプロセスを単純化するために、生成基盤モデル、特に視覚言語モデル(VLM)を用いて視覚入力から構造化ワークフローを自動的に生成する方法について検討する。
手書きのスケッチやコンピュータ生成図を実行可能なワークフローに変換することは、自由形式の描画のあいまいさ、図形のバリエーション、視覚要素から実行ロジックを推論することの難しさなど、難しい。
そこで本研究では,視覚言語モデルを用いたスケッチから構造化ワークフロー出力を生成するフレームワークであるStarFlowを紹介する。
私たちは、堅牢なトレーニングと評価を可能にするために、さまざまなワークフロー図 — 合成、手動アノテーション、実世界のサンプルなど — のデータセットをキュレートします。
我々は、複数の視覚言語モデルを微調整し、ベンチマークし、アプローチの強みと限界を分析する一連のアブレーション研究を行った。
この結果から,ファインタニングによりワークフロー生成が大幅に向上し,このタスクにおける視覚言語モデルの性能が向上することが示された。
関連論文リスト
- Opus: A Large Work Model for Complex Workflow Generation [0.0]
Opusは、複雑なビジネスプロセスアウトソーシング(BPO)ユースケースに適したタスクの生成と最適化のためのフレームワークである。
このアプローチでは、クライアント入力、クライアント出力、プロセス指向コンテキストのアライメントとして定義されたインテンションから実行ファイルを生成します。
論文 参考訳(メタデータ) (2024-11-30T20:00:41Z) - Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。