論文の概要: In-Context LoRA for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2410.23775v2
- Date: Fri, 01 Nov 2024 03:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:34:01.425216
- Title: In-Context LoRA for Diffusion Transformers
- Title(参考訳): 拡散変圧器用インコンテキストLORA
- Authors: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou,
- Abstract要約: テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
- 参考スコア(独自算出の注目度): 49.288489286276146
- License:
- Abstract: Recent research arXiv:2410.15027 has explored the use of diffusion transformers (DiTs) for task-agnostic image generation by simply concatenating attention tokens across images. However, despite substantial computational resources, the fidelity of the generated images remains suboptimal. In this study, we reevaluate and streamline this framework by hypothesizing that text-to-image DiTs inherently possess in-context generation capabilities, requiring only minimal tuning to activate them. Through diverse task experiments, we qualitatively demonstrate that existing text-to-image DiTs can effectively perform in-context generation without any tuning. Building on this insight, we propose a remarkably simple pipeline to leverage the in-context abilities of DiTs: (1) concatenate images instead of tokens, (2) perform joint captioning of multiple images, and (3) apply task-specific LoRA tuning using small datasets (e.g., $20\sim 100$ samples) instead of full-parameter tuning with large datasets. We name our models In-Context LoRA (IC-LoRA). This approach requires no modifications to the original DiT models, only changes to the training data. Remarkably, our pipeline generates high-fidelity image sets that better adhere to prompts. While task-specific in terms of tuning data, our framework remains task-agnostic in architecture and pipeline, offering a powerful tool for the community and providing valuable insights for further research on product-level task-agnostic generation systems. We release our code, data, and models at https://github.com/ali-vilab/In-Context-LoRA
- Abstract(参考訳): 近年のarXiv:2410.15027では、画像間の注意トークンの連結化により、タスク非依存の画像生成に拡散トランスフォーマー(DiT)を用いることが検討されている。
しかし、かなりの計算資源にもかかわらず、生成した画像の忠実度は依然として最適以下である。
本研究では,テキストから画像へのDiTは本質的にテキスト内生成能力を持ち,最小限のチューニングしか必要としない,という仮定を用いて,このフレームワークの再評価と合理化を行う。
多様なタスク実験を通じて、既存のテキスト・ツー・イメージのDiTが、チューニングなしでテキスト内生成を効果的に実行できることを定性的に示す。
この知見に基づいて,(1)トークンの代わりに画像を連結し,(2)複数の画像の連接キャプションを行い,(3)小さなデータセット(例:20,20\sim 100$サンプル)を用いてタスク固有のLoRAチューニングを,大規模なデータセットでフルパラメータチューニングする,という,DiTのコンテキスト内能力を活用するための,極めて単純なパイプラインを提案する。
モデルの名前は In-Context LoRA (IC-LoRA) です。
このアプローチでは、オリジナルのDiTモデルの変更は必要とせず、トレーニングデータのみを変更する。
注目すべきは、我々のパイプラインはプロンプトに忠実な高忠実度画像セットを生成することだ。
タスク固有のデータチューニングではありますが、当社のフレームワークは、アーキテクチャやパイプラインにおいてタスク非依存であり、コミュニティに強力なツールを提供し、製品レベルのタスク非依存生成システムに関するさらなる研究のための貴重な洞察を提供しています。
コード、データ、モデルをhttps://github.com/ali-vilab/In-Context-LoRAでリリースします。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。
本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。
提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文 参考訳(メタデータ) (2024-09-07T21:52:58Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation [7.539498729072623]
Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。
従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。
本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
論文 参考訳(メタデータ) (2023-06-29T05:49:07Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。