論文の概要: FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
- arxiv url: http://arxiv.org/abs/2506.20911v1
- Date: Thu, 26 Jun 2025 00:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.924032
- Title: FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
- Title(参考訳): FaSTA$^*$: 効率的なマルチターン画像編集のためのサブルーチンマイニング機能付き高速スローツールパスエージェント
- Authors: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou,
- Abstract要約: コスト効率のよいニューロシンボリック・エージェントを開発し、課題のあるマルチターン画像編集タスクに対処する。
これは、大規模言語モデルによる高速でハイレベルなサブタスク計画と、遅くて正確なツール使用と、サブタスク毎のローカルなA$*$検索を組み合わせる。
- 参考スコア(独自算出の注目度): 18.353903654948738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a cost-efficient neurosymbolic agent to address challenging multi-turn image editing tasks such as "Detect the bench in the image while recoloring it to pink. Also, remove the cat for a clearer view and recolor the wall to yellow.'' It combines the fast, high-level subtask planning by large language models (LLMs) with the slow, accurate, tool-use, and local A$^*$ search per subtask to find a cost-efficient toolpath -- a sequence of calls to AI tools. To save the cost of A$^*$ on similar subtasks, we perform inductive reasoning on previously successful toolpaths via LLMs to continuously extract/refine frequently used subroutines and reuse them as new tools for future tasks in an adaptive fast-slow planning, where the higher-level subroutines are explored first, and only when they fail, the low-level A$^*$ search is activated. The reusable symbolic subroutines considerably save exploration cost on the same types of subtasks applied to similar images, yielding a human-like fast-slow toolpath agent "FaSTA$^*$'': fast subtask planning followed by rule-based subroutine selection per subtask is attempted by LLMs at first, which is expected to cover most tasks, while slow A$^*$ search is only triggered for novel and challenging subtasks. By comparing with recent image editing approaches, we demonstrate FaSTA$^*$ is significantly more computationally efficient while remaining competitive with the state-of-the-art baseline in terms of success rate.
- Abstract(参考訳): 我々は、コスト効率のよいニューロシンボリックエージェントを開発し、課題のあるマルチターン画像編集タスクに対処する。例えば、「画像のベンチをピンクに塗り替えて、より鮮明なビューのために猫を取り除き、壁を黄色に塗り替える」。これは、大きな言語モデル(LLM)による高速でハイレベルなサブタスク計画と、コスト効率の良いツールパス(AIツールへの一連の呼び出し)を見つけるためのコスト効率の高いサブタスク毎の検索との組み合わせである。同様のサブタスクにおいて、A^*$のコストを節約するために、LLMsを介して成功したツールパスをインダクティブに推論し、頻繁に使用されるツールパスを抽出、再利用するために、LLMsを介して頻繁に使用されるツールパスをインダクティブに推論する。
近年の画像編集手法と比較すると,FaSTA$^*$は高い計算効率を保ちながら,成功率の点で最先端のベースラインと競合することを示す。
関連論文リスト
- AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文 参考訳(メタデータ) (2025-06-17T05:46:52Z) - CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing [17.107678492495637]
我々は、CoSTA*がコストと品質の両面で最先端の画像編集モデルやエージェントより優れているという、新しいマルチターン画像編集のベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-13T17:55:45Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - ART: Automatic multi-step reasoning and tool-use for large language
models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。
各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。
プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文 参考訳(メタデータ) (2023-03-16T01:04:45Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。