論文の概要: PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks
- arxiv url: http://arxiv.org/abs/2602.06663v1
- Date: Fri, 06 Feb 2026 12:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.39752
- Title: PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks
- Title(参考訳): PlanViz: コンピュータ利用タスクのための計画指向画像生成と編集の評価
- Authors: Junxian Li, Kai Liu, Leyang Chen, Weida Wang, Zhixin Wang, Jiaqi Xu, Fan Li, Renjing Pei, Linghe Kong, Yulun Zhang,
- Abstract要約: コンピュータ用タスクの画像生成と編集を行うための新しいベンチマークであるPlanVizを提案する。
ルート計画、ワークダイアグラム、Web&UI表示の3つの新しいサブタスクが設計されている。
総合的かつ正確な評価の課題に対して,タスク適応型スコアであるPlanScoreを提案する。
- 参考スコア(独自算出の注目度): 52.5195594960371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、自然画像の生成とマルチモーダル推論のサポートに優れた能力を示している。
しかし、我々の生活と密接に関連しているコンピュータ利用計画タスクを支援する可能性については、いまだ未解明のままである。
コンピュータ利用タスクにおける画像生成と編集には、空間的推論や手続き的理解などの機能が必要であり、UMMがこれらのタスクを終了する能力を持っているかどうかはまだ不明である。
そこで本稿では,コンピュータ利用タスクの画像生成と編集を行うためのベンチマークであるPlanVizを提案する。
評価の目的を達成するために,日々の生活に頻繁に関与し,計画段階を必要とするサブタスクに焦点をあてる。
具体的には、ルート計画、ワークダイアグラム、Web&UI表示という、3つの新しいサブタスクが設計されている。
我々は、人間の注釈付き質問や参照画像のキュレーションによるデータ品質確保の課題と品質管理プロセスに対処する。
総合的かつ正確な評価の課題に対して,タスク適応型スコアであるPlanScoreを提案する。
このスコアは、生成された画像の正確さ、視覚的品質、効率を理解するのに役立つ。
実験を通じて、このトピックに関する今後の研究の鍵となる限界と機会を強調します。
関連論文リスト
- Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文 参考訳(メタデータ) (2024-08-16T08:37:56Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Task Scoping: Generating Task-Specific Abstractions for Planning [19.411900372400183]
オープンスコープの世界モデルを用いた特定のタスクの計画は、計算的に難解である。
本稿では,初期条件,目標条件,タスクの遷移力学構造に関する知識を活用するタスクスコーピングを提案する。
タスクスコーピングは、関連要因やアクションを決して削除せず、その計算複雑性を特徴づけ、特に有用である計画上の問題を特徴づける。
論文 参考訳(メタデータ) (2020-10-17T21:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。