論文の概要: DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
- arxiv url: http://arxiv.org/abs/2404.01342v1
- Date: Sun, 31 Mar 2024 06:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:06:49.591118
- Title: DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
- Title(参考訳): DiffAgent: 大規模言語モデルによる高速かつ高精度なテキスト・画像API選択
- Authors: Lirui Zhao, Yue Yang, Kaipeng Zhang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Rongrong Ji,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
DiffAgentは、APIコールを介して、正確な選択を秒単位でスクリーニングするように設計されたエージェントである。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けることがわかった。
- 参考スコア(独自算出の注目度): 90.71963723884944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generative models have attracted significant attention and found extensive applications within and beyond academic research. For example, the Civitai community, a platform for T2I innovation, currently hosts an impressive array of 74,492 distinct models. However, this diversity presents a formidable challenge in selecting the most appropriate model and parameters, a process that typically requires numerous trials. Drawing inspiration from the tool usage research of large language models (LLMs), we introduce DiffAgent, an LLM agent designed to screen the accurate selection in seconds via API calls. DiffAgent leverages a novel two-stage training framework, SFTA, enabling it to accurately align T2I API responses with user input in accordance with human preferences. To train and evaluate DiffAgent's capabilities, we present DABench, a comprehensive dataset encompassing an extensive range of T2I APIs from the community. Our evaluations reveal that DiffAgent not only excels in identifying the appropriate T2I API but also underscores the effectiveness of the SFTA training framework. Codes are available at https://github.com/OpenGVLab/DiffAgent.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
例えば、T2IイノベーションのためのプラットフォームであるCivitaiコミュニティは、現在74,492の異なるモデルの印象的な配列をホストしている。
しかし、この多様性は、多くの試行を要するプロセスである最も適切なモデルとパラメータを選択する際に、非常に難しい課題を提示します。
大規模言語モデル(LLM)のツール利用研究から着想を得たDiffAgentを紹介した。
DiffAgentは、新しい2段階のトレーニングフレームワークSFTAを活用し、T2I APIレスポンスとユーザの入力を人間の好みに応じて正確に調整することを可能にする。
DiffAgentの能力をトレーニングし、評価するために、コミュニティから幅広いT2I APIを含む包括的なデータセットであるDABenchを紹介します。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けていることがわかった。
コードはhttps://github.com/OpenGVLab/DiffAgent.comで入手できる。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - TinyAgent: Function Calling at the Edge [32.174966522801746]
本稿では,エッジ上でエージェントシステムを駆動するための関数呼び出しが可能なタスク固有小言語モデルエージェントの訓練とデプロイのためのエンドツーエンドフレームワークを提案する。
駆動アプリケーションとして、テキストや音声入力によるユーザコマンドの実行が可能な、AppleのMacBook用のローカルSiriライクなシステムをデモする。
論文 参考訳(メタデータ) (2024-09-01T04:23:48Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - CoSense3D: an Agent-based Efficient Learning Framework for Collective Perception [0.552480439325792]
本稿では,よりクリーンなデータフロー構造を実現するために,ディープラーニングモジュールとエージェントデータを個別に扱うエージェントベースのトレーニングフレームワークを提案する。
このフレームワークは、データ処理パイプラインをプロトタイピングし、各エージェントの勾配計算を定義するAPIを提供するだけでなく、インタラクティブなトレーニング、テスト、データ視覚化のためのユーザインターフェースも提供する。
論文 参考訳(メタデータ) (2024-04-29T11:40:27Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。