論文の概要: CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
- arxiv url: http://arxiv.org/abs/2503.10613v1
- Date: Thu, 13 Mar 2025 17:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:29.310434
- Title: CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
- Title(参考訳): CoSTA$\ast$:マルチターン画像編集のためのコスト感性ツールパスエージェント
- Authors: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou,
- Abstract要約: 我々は、CoSTA*がコストと品質の両面で最先端の画像編集モデルやエージェントより優れているという、新しいマルチターン画像編集のベンチマークを構築した。
- 参考スコア(独自算出の注目度): 17.107678492495637
- License:
- Abstract: Text-to-image models like stable diffusion and DALLE-3 still struggle with multi-turn image editing. We decompose such a task as an agentic workflow (path) of tool use that addresses a sequence of subtasks by AI tools of varying costs. Conventional search algorithms require expensive exploration to find tool paths. While large language models (LLMs) possess prior knowledge of subtask planning, they may lack accurate estimations of capabilities and costs of tools to determine which to apply in each subtask. Can we combine the strengths of both LLMs and graph search to find cost-efficient tool paths? We propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask tree, which helps prune a graph of AI tools for the given task, and then conducts A* search on the small subgraph to find a tool path. To better balance the total cost and quality, CoSTA* combines both metrics of each tool on every subtask to guide the A* search. Each subtask's output is then evaluated by a vision-language model (VLM), where a failure will trigger an update of the tool's cost and quality on the subtask. Hence, the A* search can recover from failures quickly to explore other paths. Moreover, CoSTA* can automatically switch between modalities across subtasks for a better cost-quality trade-off. We build a novel benchmark of challenging multi-turn image editing, on which CoSTA* outperforms state-of-the-art image-editing models or agents in terms of both cost and quality, and performs versatile trade-offs upon user preference.
- Abstract(参考訳): 安定した拡散やDALLE-3のようなテキスト・ツー・イメージのモデルは、マルチターン画像編集に苦戦している。
このようなタスクを、さまざまなコストでAIツールによってサブタスクのシーケンスに対処する、ツール使用のエージェントワークフロー(パス)として分解する。
従来の検索アルゴリズムでは、ツールパスを見つけるのに高価な探索が必要である。
大規模言語モデル(LLM)はサブタスク計画に関する事前知識を持っているが、各サブタスクに適用すべき機能やコストを正確に見積もることができない可能性がある。
LLMとグラフ検索の長所を組み合わせて、コスト効率の良いツールパスを見つけられるか?
我々は,LLMを活用してサブタスクのためのAIツールのグラフを作成する3段階のアプローチであるCoSTA*を提案し,その上で,小さなサブグラフ上でA*検索を行い,ツールパスを見つける。
コストと品質のバランスを改善するために、CoSTA*はA*検索をガイドするために、各サブタスクの各ツールのメトリクスを組み合わせる。
各サブタスクの出力は視覚言語モデル(VLM)によって評価され、失敗するとサブタスクのコストと品質が更新される。
したがって、A*探索は失敗から素早く回復し、他の経路を探索することができる。
さらにCoSTA*は、サブタスク間で自動的にモダリティを切り替えて、より良いコスト品質のトレードオフを実現することができる。
我々は、コストと品質の両面でCoSTA*が最先端の画像編集モデルやエージェントより優れており、ユーザの好みに応じて汎用的なトレードオフを行う、挑戦的なマルチターン画像編集のベンチマークを構築した。
関連論文リスト
- Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。
我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。
評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-08-03T22:49:27Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。
ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文 参考訳(メタデータ) (2023-05-26T17:50:11Z) - ART: Automatic multi-step reasoning and tool-use for large language
models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。
各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。
プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文 参考訳(メタデータ) (2023-03-16T01:04:45Z) - Pruning Pretrained Encoders with a Multitask Objective [12.062758391661847]
シングルタスクモデルのベストアンサンブルに対して,マルチタスクの目的と単一モデルのプルーニングを比較した。
さらなる分析により、マルチタスクの目的をプルーニング中に使用することは、低リソースタスクのモデルサイズの削減に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2021-12-10T17:57:33Z) - MTL-NAS: Task-Agnostic Neural Architecture Search towards
General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。
異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。
また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T09:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。