論文の概要: GraphicBench: A Planning Benchmark for Graphic Design with Language Agents
- arxiv url: http://arxiv.org/abs/2504.11571v1
- Date: Tue, 15 Apr 2025 19:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:36.682970
- Title: GraphicBench: A Planning Benchmark for Graphic Design with Language Agents
- Title(参考訳): GraphicBench: 言語エージェントによるグラフィクス設計のための計画ベンチマーク
- Authors: Dayeon Ki, Tianyi Zhou, Marine Carpuat, Gang Wu, Puneet Mathur, Viswanathan Swaminathan,
- Abstract要約: GraphicBenchは、グラフィックデザインのための新しい計画ベンチマークで、4つのタイプにわたる1,079のユーザクエリと入力イメージをカバーする。
3つの設計専門家と46のアクション(ツール)を備えたLLMエージェントフレームワークであるGraphicTownを紹介します。
- 参考スコア(独自算出の注目度): 36.854520928838745
- License:
- Abstract: Large Language Model (LLM)-powered agents have unlocked new possibilities for automating human tasks. While prior work has focused on well-defined tasks with specified goals, the capabilities of agents in creative design tasks with open-ended goals remain underexplored. We introduce GraphicBench, a new planning benchmark for graphic design that covers 1,079 user queries and input images across four design types. We further present GraphicTown, an LLM agent framework with three design experts and 46 actions (tools) to choose from for executing each step of the planned workflows in web environments. Experiments with six LLMs demonstrate their ability to generate workflows that integrate both explicit design constraints from user queries and implicit commonsense constraints. However, these workflows often do not lead to successful execution outcomes, primarily due to challenges in: (1) reasoning about spatial relationships, (2) coordinating global dependencies across experts, and (3) retrieving the most appropriate action per step. We envision GraphicBench as a challenging yet valuable testbed for advancing LLM-agent planning and execution in creative design tasks.
- Abstract(参考訳): LLM(Large Language Model)を利用したエージェントは、人間のタスクを自動化する新しい可能性を解放した。
以前の作業は、特定の目標を持つ明確に定義されたタスクに焦点を合わせてきたが、オープンな目標を持つ創造的デザインタスクにおけるエージェントの能力は、まだ未熟である。
GraphicBenchは、グラフィックデザインのための新しい計画ベンチマークで、4つのデザインタイプにわたる1,079のユーザクエリと入力イメージをカバーする。
さらに、3つの設計専門家と46のアクション(ツール)を備えたLLMエージェントフレームワークであるGraphicTownを紹介します。
6つのLLMを使った実験では、ユーザクエリから明示的な設計制約と暗黙的なコモンセンス制約の両方を統合するワークフローを生成する能力が実証されている。
しかし、これらのワークフローは、(1)空間的関係の推論、(2)専門家間のグローバルな依存関係の調整、(3)ステップごとの最も適切なアクションの検索といった課題によって、実行結果の達成に繋がらないことが多い。
GraphicBenchは、クリエイティブなデザインタスクにおけるLLMエージェントの計画と実行を促進する上で、難しいが価値のあるテストベッドであると考えています。
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Egocentric Planning for Scalable Embodied Task Achievement [6.870094263016224]
エゴセントリックプランニング(Egocentric Planning)は、複雑な環境におけるタスクを解決するために、シンボリックプランニングとオブジェクト指向のPOMDPを組み合わせた革新的なアプローチである。
国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し,そのスケーラビリティを実証した。
本手法では, エージェントの行動の前提条件と影響について, 信頼性の高い認識と記号的記述の特定, 学習が必要である。
論文 参考訳(メタデータ) (2023-06-02T06:41:24Z) - Efficient Automatic Machine Learning via Design Graphs [72.85976749396745]
最適なモデル設計を探索する効率的なサンプルベース手法であるFALCONを提案する。
FALCONは,1)グラフニューラルネットワーク(GNN)を介してデザイングラフ上でメッセージパッシングを行うタスク非依存モジュール,2)既知のモデル性能情報のラベル伝搬を行うタスク固有モジュールを特徴とする。
FALCONは,30個の探索ノードのみを用いて,各タスクに対して良好な性能を持つ設計を効率的に得ることを実証的に示す。
論文 参考訳(メタデータ) (2022-10-21T21:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。