論文の概要: DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
- arxiv url: http://arxiv.org/abs/2404.01342v1
- Date: Sun, 31 Mar 2024 06:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:06:49.591118
- Title: DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model
- Title(参考訳): DiffAgent: 大規模言語モデルによる高速かつ高精度なテキスト・画像API選択
- Authors: Lirui Zhao, Yue Yang, Kaipeng Zhang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Rongrong Ji,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
DiffAgentは、APIコールを介して、正確な選択を秒単位でスクリーニングするように設計されたエージェントである。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けることがわかった。
- 参考スコア(独自算出の注目度): 90.71963723884944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generative models have attracted significant attention and found extensive applications within and beyond academic research. For example, the Civitai community, a platform for T2I innovation, currently hosts an impressive array of 74,492 distinct models. However, this diversity presents a formidable challenge in selecting the most appropriate model and parameters, a process that typically requires numerous trials. Drawing inspiration from the tool usage research of large language models (LLMs), we introduce DiffAgent, an LLM agent designed to screen the accurate selection in seconds via API calls. DiffAgent leverages a novel two-stage training framework, SFTA, enabling it to accurately align T2I API responses with user input in accordance with human preferences. To train and evaluate DiffAgent's capabilities, we present DABench, a comprehensive dataset encompassing an extensive range of T2I APIs from the community. Our evaluations reveal that DiffAgent not only excels in identifying the appropriate T2I API but also underscores the effectiveness of the SFTA training framework. Codes are available at https://github.com/OpenGVLab/DiffAgent.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルは非常に注目され、学術研究の内外に広く応用されている。
例えば、T2IイノベーションのためのプラットフォームであるCivitaiコミュニティは、現在74,492の異なるモデルの印象的な配列をホストしている。
しかし、この多様性は、多くの試行を要するプロセスである最も適切なモデルとパラメータを選択する際に、非常に難しい課題を提示します。
大規模言語モデル(LLM)のツール利用研究から着想を得たDiffAgentを紹介した。
DiffAgentは、新しい2段階のトレーニングフレームワークSFTAを活用し、T2I APIレスポンスとユーザの入力を人間の好みに応じて正確に調整することを可能にする。
DiffAgentの能力をトレーニングし、評価するために、コミュニティから幅広いT2I APIを含む包括的なデータセットであるDABenchを紹介します。
評価の結果,DiffAgentは適切なT2I APIの同定に優れるだけでなく,SFTAトレーニングフレームワークの有効性も裏付けていることがわかった。
コードはhttps://github.com/OpenGVLab/DiffAgent.comで入手できる。
関連論文リスト
- CoSense3D: an Agent-based Efficient Learning Framework for Collective Perception [0.552480439325792]
本稿では,よりクリーンなデータフロー構造を実現するために,ディープラーニングモジュールとエージェントデータを個別に扱うエージェントベースのトレーニングフレームワークを提案する。
このフレームワークは、データ処理パイプラインをプロトタイピングし、各エージェントの勾配計算を定義するAPIを提供するだけでなく、インタラクティブなトレーニング、テスト、データ視覚化のためのユーザインターフェースも提供する。
論文 参考訳(メタデータ) (2024-04-29T11:40:27Z) - Time Series Representation Learning with Supervised Contrastive Temporal Transformer [8.223940676615857]
textbf Supervised textbfCOntrastive textbfTemporal textbfTransformer (SCOTT)
まず,変化不変表現の学習を支援するために,様々な時系列データに対する適切な拡張手法について検討する。
論文 参考訳(メタデータ) (2024-03-16T03:37:19Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [100.14685774661959]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Finding Meaningful Distributions of ML Black-boxes under Forensic
Investigation [25.79728190384834]
ドキュメンテーションの不十分なニューラルネットワークモデルを考えると、モデルのデータドメインを知りたがっている法医学研究者の視点を捉えます。
本稿では、ImageNetなどの包括的コーパスを利用して意味のある分布を選択することで、この問題を解決することを提案する。
私たちのゴールは、与えられたモデルのためにコーパスからサンプルのセットを選択することです。
論文 参考訳(メタデータ) (2023-05-10T03:25:23Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。