Fugu-MT 論文翻訳(概要): FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

論文の概要: FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

arxiv url: http://arxiv.org/abs/2506.20911v1
Date: Thu, 26 Jun 2025 00:33:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.924032
Title: FaSTA$^*$: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
Title（参考訳）: FaSTA$^*$: 効率的なマルチターン画像編集のためのサブルーチンマイニング機能付き高速スローツールパスエージェント
Authors: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou,
Abstract要約: コスト効率のよいニューロシンボリック・エージェントを開発し、課題のあるマルチターン画像編集タスクに対処する。これは、大規模言語モデルによる高速でハイレベルなサブタスク計画と、遅くて正確なツール使用と、サブタスク毎のローカルなA$*$検索を組み合わせる。
参考スコア（独自算出の注目度）: 18.353903654948738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We develop a cost-efficient neurosymbolic agent to address challenging multi-turn image editing tasks such as "Detect the bench in the image while recoloring it to pink. Also, remove the cat for a clearer view and recolor the wall to yellow.'' It combines the fast, high-level subtask planning by large language models (LLMs) with the slow, accurate, tool-use, and local A$^*$ search per subtask to find a cost-efficient toolpath -- a sequence of calls to AI tools. To save the cost of A$^*$ on similar subtasks, we perform inductive reasoning on previously successful toolpaths via LLMs to continuously extract/refine frequently used subroutines and reuse them as new tools for future tasks in an adaptive fast-slow planning, where the higher-level subroutines are explored first, and only when they fail, the low-level A$^*$ search is activated. The reusable symbolic subroutines considerably save exploration cost on the same types of subtasks applied to similar images, yielding a human-like fast-slow toolpath agent "FaSTA$^*$'': fast subtask planning followed by rule-based subroutine selection per subtask is attempted by LLMs at first, which is expected to cover most tasks, while slow A$^*$ search is only triggered for novel and challenging subtasks. By comparing with recent image editing approaches, we demonstrate FaSTA$^*$ is significantly more computationally efficient while remaining competitive with the state-of-the-art baseline in terms of success rate.
Abstract（参考訳）: 我々は、コスト効率のよいニューロシンボリックエージェントを開発し、課題のあるマルチターン画像編集タスクに対処する。例えば、「画像のベンチをピンクに塗り替えて、より鮮明なビューのために猫を取り除き、壁を黄色に塗り替える」。これは、大きな言語モデル(LLM)による高速でハイレベルなサブタスク計画と、コスト効率の良いツールパス(AIツールへの一連の呼び出し)を見つけるためのコスト効率の高いサブタスク毎の検索との組み合わせである。同様のサブタスクにおいて、A^*$のコストを節約するために、LLMsを介して成功したツールパスをインダクティブに推論し、頻繁に使用されるツールパスを抽出、再利用するために、LLMsを介して頻繁に使用されるツールパスをインダクティブに推論する。近年の画像編集手法と比較すると,FaSTA$^*$は高い計算効率を保ちながら,成功率の点で最先端のベースラインと競合することを示す。

関連論文リスト

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文参考訳（メタデータ） (2025-06-17T05:46:52Z)
CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing [17.107678492495637]
我々は、CoSTA*がコストと品質の両面で最先端の画像編集モデルやエージェントより優れているという、新しいマルチターン画像編集のベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-13T17:55:45Z)
Algorithm Design for Continual Learning in IoT Networks [16.35495567193046]
連続学習(CL)は、異なるタスクから連続的に生成されたストリーミングデータに対する新しいオンライン学習技術である。実用的なIoTネットワークでは、データをサンプリングしてさまざまなタスクを学習する自動運転車は、タスクパターンの順序をルーティングし変更することができる。
論文参考訳（メタデータ） (2024-12-22T02:36:09Z)
SMAUG: A Sliding Multidimensional Task Window-Based MARL Framework for Adaptive Real-Time Subtask Recognition [11.236363226878975]
サブタスクベースのマルチエージェント強化学習(MARL)手法により、エージェントは異なるサブタスクに対処する方法を学ぶことができる。 textbfSliding textbfMultidimensional ttextbfAsk window based mtextbfUti-agent reinforcement learnintextbfG framework (SMAUG) を提案する。 StarCraft IIの実験では、SMAUGはすべてのベースラインと比較してパフォーマンス上の優位性を示すだけでなく、より顕著で迅速な報酬の上昇を示す。
論文参考訳（メタデータ） (2024-03-04T08:04:41Z)
FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-06-06T15:39:54Z)
ART: Automatic multi-step reasoning and tool-use for large language models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文参考訳（メタデータ） (2023-03-16T01:04:45Z)
Multitask Vision-Language Prompt Tuning [103.5967011236282]
マルチタスク視覚言語プロンプトチューニング(MV)を提案する。 MVはクロスタスクの知識を視覚言語モデルの迅速なチューニングに取り入れている。 20個の視覚タスクの結果、提案手法は全ての単一タスクのベースライン・プロンプト・チューニング法より優れていることが示された。
論文参考訳（メタデータ） (2022-11-21T18:41:44Z)
Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。 Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文参考訳（メタデータ） (2022-10-05T17:28:20Z)
Fast Inference and Transfer of Compositional Task Structures for Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文参考訳（メタデータ） (2022-05-25T10:44:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。