Fugu-MT 論文翻訳(概要): In-Context LoRA for Diffusion Transformers

論文の概要: In-Context LoRA for Diffusion Transformers

arxiv url: http://arxiv.org/abs/2410.23775v1
Date: Thu, 31 Oct 2024 09:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.745874
Title: In-Context LoRA for Diffusion Transformers
Title（参考訳）: 拡散変圧器用インコンテキストLORA
Authors: Lianghua Huang, Wei Wang, Zhi-Fan Wu, Yupeng Shi, Huanzhang Dou, Chen Liang, Yutong Feng, Yu Liu, Jingren Zhou,
Abstract要約: テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
参考スコア（独自算出の注目度）: 49.288489286276146
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent research arXiv:2410.15027 has explored the use of diffusion transformers (DiTs) for task-agnostic image generation by simply concatenating attention tokens across images. However, despite substantial computational resources, the fidelity of the generated images remains suboptimal. In this study, we reevaluate and streamline this framework by hypothesizing that text-to-image DiTs inherently possess in-context generation capabilities, requiring only minimal tuning to activate them. Through diverse task experiments, we qualitatively demonstrate that existing text-to-image DiTs can effectively perform in-context generation without any tuning. Building on this insight, we propose a remarkably simple pipeline to leverage the in-context abilities of DiTs: (1) concatenate images instead of tokens, (2) perform joint captioning of multiple images, and (3) apply task-specific LoRA tuning using small datasets (e.g., $20\sim 100$ samples) instead of full-parameter tuning with large datasets. We name our models In-Context LoRA (IC-LoRA). This approach requires no modifications to the original DiT models, only changes to the training data. Remarkably, our pipeline generates high-fidelity image sets that better adhere to prompts. While task-specific in terms of tuning data, our framework remains task-agnostic in architecture and pipeline, offering a powerful tool for the community and providing valuable insights for further research on product-level task-agnostic generation systems. We release our code, data, and models at https://github.com/ali-vilab/In-Context-LoRA
Abstract（参考訳）: 近年のarXiv:2410.15027では、画像間の注意トークンの連結化により、タスク非依存の画像生成に拡散トランスフォーマー(DiT)を用いることが検討されている。しかし、かなりの計算資源にもかかわらず、生成した画像の忠実度は依然として最適以下である。本研究では,テキストから画像へのDiTは本質的にテキスト内生成能力を持ち,最小限のチューニングしか必要としない,という仮定を用いて,このフレームワークの再評価と合理化を行う。多様なタスク実験を通じて、既存のテキスト・ツー・イメージのDiTが、チューニングなしでテキスト内生成を効果的に実行できることを定性的に示す。この知見に基づいて,(1)トークンの代わりに画像を連結し,(2)複数の画像の連接キャプションを行い,(3)小さなデータセット(例:20,20\sim 100$サンプル)を用いてタスク固有のLoRAチューニングを,大規模なデータセットでフルパラメータチューニングする,という,DiTのコンテキスト内能力を活用するための,極めて単純なパイプラインを提案する。モデルの名前は In-Context LoRA (IC-LoRA) です。このアプローチでは、オリジナルのDiTモデルの変更は必要とせず、トレーニングデータのみを変更する。注目すべきは、我々のパイプラインはプロンプトに忠実な高忠実度画像セットを生成することだ。タスク固有のデータチューニングではありますが、当社のフレームワークは、アーキテクチャやパイプラインにおいてタスク非依存であり、コミュニティに強力なツールを提供し、製品レベルのタスク非依存生成システムに関するさらなる研究のための貴重な洞察を提供しています。コード、データ、モデルをhttps://github.com/ali-vilab/In-Context-LoRAでリリースします。

関連論文リスト

LoFT: LoRA-fused Training Dataset Generation with Few-shot Guidance [96.6544564242316]
本稿では,Few-shot Guidanceを用いたLoRA-Fused Training-data Generationという新しいデータセット生成フレームワークを提案する。提案手法は,個々の実画像にLoRA重みを微調整し,推定時に融合させ,実画像の特徴を組み合わせた合成画像を生成し,データの多様性と忠実度を向上させる。実験の結果,LoFT生成データに対するトレーニングは,他の合成データセット法より一貫して優れており,データセットのサイズが大きくなるにつれて精度が著しく向上することがわかった。
論文参考訳（メタデータ） (2025-05-16T21:17:55Z)
ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文参考訳（メタデータ） (2025-03-25T03:18:46Z)
good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval [10.156187875858995]
コンポジション画像検索(CIR)により、ユーザーは参照画像とテキスト修正を組み合わせることで画像を検索できる。高品質な合成アノテーションを生成するために視覚言語モデルを活用した構造化パイプラインである good4cir を導入する。その結果,パイプライン生成データセットに基づいてトレーニングしたCIRモデルの検索精度が向上した。
論文参考訳（メタデータ） (2025-03-22T22:33:56Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity [2.724141845301679]
合成画像検索(CIR)は、参照画像と修正テキストの組み合わせとしてクエリを定式化する。本稿では,ZS-CIRのためのトレーニングフリーアプローチを提案する。提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。
論文参考訳（メタデータ） (2024-09-07T21:52:58Z)
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文参考訳（メタデータ） (2024-08-07T11:20:37Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation [7.539498729072623]
Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
論文参考訳（メタデータ） (2023-06-29T05:49:07Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。