Fugu-MT 論文翻訳(概要): CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

論文の概要: CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

arxiv url: http://arxiv.org/abs/2503.10613v1
Date: Thu, 13 Mar 2025 17:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.809136
Title: CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
Title（参考訳）: CoSTA$\ast$:マルチターン画像編集のためのコスト感性ツールパスエージェント
Authors: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou,
Abstract要約: 我々は、CoSTA*がコストと品質の両面で最先端の画像編集モデルやエージェントより優れているという、新しいマルチターン画像編集のベンチマークを構築した。
参考スコア（独自算出の注目度）: 17.107678492495637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image models like stable diffusion and DALLE-3 still struggle with multi-turn image editing. We decompose such a task as an agentic workflow (path) of tool use that addresses a sequence of subtasks by AI tools of varying costs. Conventional search algorithms require expensive exploration to find tool paths. While large language models (LLMs) possess prior knowledge of subtask planning, they may lack accurate estimations of capabilities and costs of tools to determine which to apply in each subtask. Can we combine the strengths of both LLMs and graph search to find cost-efficient tool paths? We propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask tree, which helps prune a graph of AI tools for the given task, and then conducts A* search on the small subgraph to find a tool path. To better balance the total cost and quality, CoSTA* combines both metrics of each tool on every subtask to guide the A* search. Each subtask's output is then evaluated by a vision-language model (VLM), where a failure will trigger an update of the tool's cost and quality on the subtask. Hence, the A* search can recover from failures quickly to explore other paths. Moreover, CoSTA* can automatically switch between modalities across subtasks for a better cost-quality trade-off. We build a novel benchmark of challenging multi-turn image editing, on which CoSTA* outperforms state-of-the-art image-editing models or agents in terms of both cost and quality, and performs versatile trade-offs upon user preference.
Abstract（参考訳）: 安定した拡散やDALLE-3のようなテキスト・ツー・イメージのモデルは、マルチターン画像編集に苦戦している。このようなタスクを、さまざまなコストでAIツールによってサブタスクのシーケンスに対処する、ツール使用のエージェントワークフロー(パス)として分解する。従来の検索アルゴリズムでは、ツールパスを見つけるのに高価な探索が必要である。大規模言語モデル(LLM)はサブタスク計画に関する事前知識を持っているが、各サブタスクに適用すべき機能やコストを正確に見積もることができない可能性がある。 LLMとグラフ検索の長所を組み合わせて、コスト効率の良いツールパスを見つけられるか? 我々は,LLMを活用してサブタスクのためのAIツールのグラフを作成する3段階のアプローチであるCoSTA*を提案し,その上で,小さなサブグラフ上でA*検索を行い,ツールパスを見つける。コストと品質のバランスを改善するために、CoSTA*はA*検索をガイドするために、各サブタスクの各ツールのメトリクスを組み合わせる。各サブタスクの出力は視覚言語モデル(VLM)によって評価され、失敗するとサブタスクのコストと品質が更新される。したがって、A*探索は失敗から素早く回復し、他の経路を探索することができる。さらにCoSTA*は、サブタスク間で自動的にモダリティを切り替えて、より良いコスト品質のトレードオフを実現することができる。我々は、コストと品質の両面でCoSTA*が最先端の画像編集モデルやエージェントより優れており、ユーザの好みに応じて汎用的なトレードオフを行う、挑戦的なマルチターン画像編集のベンチマークを構築した。

関連論文リスト

MassTool: A Multi-Task Search-Based Tool Retrieval Framework for Large Language Models [45.63804847907601]
MassToolは、クエリ表現とツール検索の精度を向上させるために設計されたマルチタスク検索ベースのフレームワークである。関数呼び出しの必要性を予測するツール使用検知塔と、クエリ中心のグラフ畳み込みネットワーク(QC-GCN)を活用して効率的なクエリツールマッチングを行うツール検索塔である。 MassToolは、ツール使用の検出損失、リストワイズ検索損失、コントラスト正規化損失を共同で最適化することにより、厳密なクエリ理解のための堅牢な2段階のシーケンシャル意思決定パイプラインを確立する。
論文参考訳（メタデータ） (2025-07-01T07:02:26Z)
FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing [18.353903654948738]
コスト効率のよいニューロシンボリック・エージェントを開発し、課題のあるマルチターン画像編集タスクに対処する。これは、大規模言語モデルによる高速でハイレベルなサブタスク計画と、遅くて正確なツール使用と、サブタスク毎のローカルなA$*$検索を組み合わせる。
論文参考訳（メタデータ） (2025-06-26T00:33:43Z)
Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [69.32855772335624]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。 Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文参考訳（メタデータ） (2025-04-30T12:01:27Z)
Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-04-10T16:54:28Z)
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval [47.81307125613145]
Re-Invokeは、トレーニングなしで大規模ツールセットに効果的にスケールするために設計された教師なしツール検索手法である。我々は、クエリ毎に最も関連性の高いツールを特定するために、意図に基づいて、新しいマルチビュー類似度ランキング戦略を採用する。評価の結果、Re-Invokeはシングルツールとマルチツールの両方のシナリオにおいて、最先端の代替よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-08-03T22:49:27Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文参考訳（メタデータ） (2023-10-26T21:57:21Z)
FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-06-06T15:39:54Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)
ART: Automatic multi-step reasoning and tool-use for large language models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文参考訳（メタデータ） (2023-03-16T01:04:45Z)
Pruning Pretrained Encoders with a Multitask Objective [12.062758391661847]
シングルタスクモデルのベストアンサンブルに対して,マルチタスクの目的と単一モデルのプルーニングを比較した。さらなる分析により、マルチタスクの目的をプルーニング中に使用することは、低リソースタスクのモデルサイズの削減に有効な方法であることがわかった。
論文参考訳（メタデータ） (2021-12-10T17:57:33Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
MTL-NAS: Task-Agnostic Neural Architecture Search towards General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-03-31T09:49:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。