論文の概要: SIDiffAgent: Self-Improving Diffusion Agent
- arxiv url: http://arxiv.org/abs/2602.02051v1
- Date: Mon, 02 Feb 2026 12:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.15225
- Title: SIDiffAgent: Self-Improving Diffusion Agent
- Title(参考訳): SIDiffAgent:自己免疫拡散剤
- Authors: Shivank Garg, Ayush Singh, Gaurav Kumar Nayak,
- Abstract要約: テキストから画像への拡散モデルは、生成AIに革命をもたらし、高品質でフォトリアリスティックな画像合成を可能にした。
しかし、実際の配備はいくつかの制限によって妨げられている。
これには、言い回しの促進への感受性、意味解釈の曖昧さ、歪んだ解剖学のような人工物が含まれる。
トレーニングフリーなエージェントフレームワークであるSelf-Improving Diffusion Agent (SIDiffAgent)を紹介する。
- 参考スコア(独自算出の注目度): 9.702730344689494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have revolutionized generative AI, enabling high-quality and photorealistic image synthesis. However, their practical deployment remains hindered by several limitations: sensitivity to prompt phrasing, ambiguity in semantic interpretation (e.g., ``mouse" as animal vs. a computer peripheral), artifacts such as distorted anatomy, and the need for carefully engineered input prompts. Existing methods often require additional training and offer limited controllability, restricting their adaptability in real-world applications. We introduce Self-Improving Diffusion Agent (SIDiffAgent), a training-free agentic framework that leverages the Qwen family of models (Qwen-VL, Qwen-Image, Qwen-Edit, Qwen-Embedding) to address these challenges. SIDiffAgent autonomously manages prompt engineering, detects and corrects poor generations, and performs fine-grained artifact removal, yielding more reliable and consistent outputs. It further incorporates iterative self-improvement by storing a memory of previous experiences in a database. This database of past experiences is then used to inject prompt-based guidance at each stage of the agentic pipeline. \modelour achieved an average VQA score of 0.884 on GenAIBench, significantly outperforming open-source, proprietary models and agentic methods. We will publicly release our code upon acceptance.
- Abstract(参考訳): テキストから画像への拡散モデルは、生成AIに革命をもたらし、高品質でフォトリアリスティックな画像合成を可能にした。
しかし、それらの実践的な展開は、いくつかの制限によって妨げられている: 言い換えに対する感受性、意味解釈におけるあいまいさ(例えば、動物対コンピュータ周辺部における「マウス」)、歪んだ解剖学のような人工物、慎重に設計された入力プロンプトの必要性。
既存の方法は、しばしば追加のトレーニングを必要とし、現実のアプリケーションにおける適応性を制限する限定的な制御性を提供する。
本稿では,Qwen-VL,Qwen-Image,Qwen-Edit,Qwen-Embeddingをモデルとした学習自由エージェントフレームワークであるSelf-Improving Diffusion Agent(SIDiffAgent)を紹介する。
SIDiffAgentは、迅速なエンジニアリングを自律的に管理し、貧しい世代を検出し、修正し、きめ細かいアーティファクトの除去を行い、より信頼性が高く一貫性のある出力を得る。
さらに、過去の体験のメモリをデータベースに格納することで、反復的な自己改善を組み込む。
この過去の経験のデータベースは、エージェントパイプラインの各ステージでプロンプトベースのガイダンスを注入するために使用される。
\modelour は GenAIBench で平均 VQA スコア 0.884 を達成し、オープンソース、プロプライエタリなモデル、エージェントメソッドを大きく上回った。
受け入れ次第、コードを公開します。
関連論文リスト
- AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。
実行トレースから実装盲の症状レベルの品質信号を生成する。
主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文 参考訳(メタデータ) (2026-01-08T05:49:01Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - ImAgent: A Unified Multimodal Agent Framework for Test-Time Scalable Image Generation [49.01601313084479]
ImAgentは、推論、生成、自己評価を統合するトレーニングフリーの統一マルチモーダルエージェントである。
画像生成と編集タスクの実験は、ImAgentがバックボーンよりも一貫して改善していることを示している。
論文 参考訳(メタデータ) (2025-11-14T17:00:29Z) - From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection [19.240335260177382]
AIFo(Agent-based Image Forensics)は、マルチエージェントコラボレーションによる人間の法医学的調査をエミュレートする、トレーニング不要のフレームワークである。
従来の手法とは異なり,本フレームワークでは,リバース画像検索,メタデータ抽出,事前学習型分類器,VLM解析など,一連の法医学的ツールを用いている。
我々の総合的な評価は6000のイメージに及び、現代の生成プラットフォームや多様なオンラインソースの画像を含む現実世界のシナリオに挑戦する。
論文 参考訳(メタデータ) (2025-10-31T18:36:49Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。