論文の概要: OctoT2I: A Self-Evolving Agentic Text-to-Image Router
- arxiv url: http://arxiv.org/abs/2606.01803v1
- Date: Mon, 01 Jun 2026 07:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.487788
- Title: OctoT2I: A Self-Evolving Agentic Text-to-Image Router
- Title(参考訳): OctoT2I: セルフ進化型エージェントテキスト・ツー・イメージ・ルータ
- Authors: Xu Jiang, Bin Chen, Gehui Li, Yule Duan, Ronggang Wang, Jian Zhang,
- Abstract要約: 生成品質と推論効率の協調最適化として,テキスト・画像タスクを再構成する新しいエージェントフレームワークであるOctoT2Iを紹介する。
OctoT2Iは、その知識とメモリに基づいて最適なツールを適応的に選択するステートフルなマルチラウンドルーティング戦略を実装している。
実験により、OctoT2IはGenEval上での競争性能(0.96)を達成することが示された。
- 参考スコア(独自算出の注目度): 37.128136650887654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The explosive growth of Text-to-Image (T2I) models, from large-scale versions to lightweight, real-time ones, now faces diminishing marginal returns from single-model scaling. Agentic T2I methods emerged to alleviate this bottleneck by using multiple models. However, existing agentic T2I methods suffer from three key challenges: reliance on expensive handcrafted priors or human annotations, rigid single-path decision mechanisms, and a neglect of inference efficiency. To address these challenges, we introduce OctoT2I, a novel agentic framework that reformulates the T2I task as a joint optimization of generation quality and inference efficiency. OctoT2I implements a stateful, multi-round routing strategy that adaptively selects the most suitable tool based on its knowledge and memory. This strategy is enabled by a knowledge base built from scratch by our novel Self-Evolving Mechanism. This mechanism, which requires no human supervision, first autonomously defines foundational Conceptual Dimensions (eg, style, color, count) and then intelligently explores their combinations via an iterative" Propose--Solve--Evaluate--Learn"(PSEL) loop. The PSEL loop efficiently discovers each tool's capability frontier, driving continuous improvement without external guidance. Extensive experiments demonstrate that OctoT2I achieves competitive performance (0.96) on GenEval while delivering a 90.3% inference speedup and a 56.6% energy-efficiency gain over the leading baseline (Flow-GRPO), striking an exceptional balance between performance and efficiency. Code and models will be made available.
- Abstract(参考訳): 大規模バージョンから軽量のリアルタイムモデルまで、テキスト・ツー・イメージ(T2I)モデルの爆発的な成長は、シングルモデルスケーリングによる限界リターンの減少に直面している。
エージェントT2Iメソッドは、複数のモデルを使用することでこのボトルネックを軽減するために現れた。
しかし、既存のエージェント的T2I手法は、高価な手工芸品や人間のアノテーションへの依存、厳格な単一パス決定機構、推論効率の無視という3つの大きな課題に悩まされている。
これらの課題に対処するために,T2Iタスクを生成品質と推論効率を協調的に最適化する新しいエージェントフレームワークであるOctoT2Iを紹介する。
OctoT2Iは、その知識とメモリに基づいて最適なツールを適応的に選択するステートフルなマルチラウンドルーティング戦略を実装している。
この戦略は、私たちの新しい自己進化メカニズムによってゼロから構築された知識ベースによって実現されます。
人間の監督を必要としないこのメカニズムは、まず基本的な概念次元(例えば、スタイル、色、数)を自律的に定義し、次に反復的な"Propose--Solve--Evaluate--Learn"(PSEL)ループを通じてそれらの組み合わせをインテリジェントに探索する。
PSELループは、各ツールの機能フロンティアを効率的に発見し、外部ガイダンスなしで継続的改善を推進します。
大規模な実験により、OctoT2Iは90.3%の推論スピードアップと56.6%のエネルギー効率向上を実現し、パフォーマンスと効率の両立を図った。
コードとモデルは利用可能になる。
関連論文リスト
- AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs [17.827406818899536]
MoE-Prismは、厳格なMoEモデルをエラスティックサービスに変換するモデルシステムの共同設計である。
評価の結果,MoE-Prismprovides はベースラインの4倍以上,安定な動作点であることがわかった。
これにより、厳格な予算で最大19.9%のスループットを動的に改善したり、限られたリソースで最大10.36%のレイテンシを削減できる。
論文 参考訳(メタデータ) (2025-10-22T08:40:01Z) - Building Coding Agents via Entropy-Enhanced Multi-Turn Preference Optimization [13.271737599933147]
本稿では,エントロピー強化フレームワークであるEntroPOを紹介し,既存の優先最適化アルゴリズムをマルチターンツール支援設定に適用する。
EntroPOは、さまざまな家族やサイズのモデル群を微調整することで検証する。
swebenchのリーダーボードでは、オープンウェイトモデルの間で、新しい最先端の結果が確立される。
論文 参考訳(メタデータ) (2025-09-15T20:36:19Z) - HEFT: A Coarse-to-Fine Hierarchy for Enhancing the Efficiency and Accuracy of Language Model Reasoning [0.0]
HEFTは、2つの異なるPEFT法を粗い方法で構成する新しい階層的適応戦略である。
HEFT戦略を用いた3つのエポックのみを微調整したモデルでは,20エポックで訓練したモデルの性能を上回る精度が85.17%に達する。
論文 参考訳(メタデータ) (2025-09-11T19:06:46Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space [61.091910046492345]
$lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
論文 参考訳(メタデータ) (2024-02-07T19:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。