論文の概要: ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation
- arxiv url: http://arxiv.org/abs/2603.19157v1
- Date: Thu, 19 Mar 2026 17:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.290532
- Title: ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation
- Title(参考訳): ADAPT:希少概念生成のための注意駆動適応型プロンプトスケジューリングと直交補間
- Authors: Kwanyoung Lee, Hyunwoo Oh, SeungJu Cha, Sungho Koh, Dong-Jin Kim,
- Abstract要約: ADAPTはトレーニング不要のフレームワークで、決定論的に計画し、セマンティックにプロンプトスケジュールを調整します。
ADAPTはRareBenchにおいて優れた性能を示し,レア属性のセマンティック情報を正確に反映する。
- 参考スコア(独自算出の注目度): 7.233066974580282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating rare compositional concepts in text-to-image synthesis remains a challenge for diffusion models, particularly for attributes that are uncommon in the training data. While recent approaches, such as R2F, address this challenge by utilizing LLM for prompt scheduling, they suffer from inherent variance due to the randomness of language models and suboptimal guidance from iterative text embedding switching. To address these problems, we propose the ADAPT framework, a training-free framework that deterministically plans and semantically aligns prompt schedules, providing consistent guidance to enhance the composition of rare concepts. By leveraging attention scores and orthogonal components, ADAPT significantly enhances compositional generation of rare concepts in the RareBench benchmark without additional training or fine-tuning. Through comprehensive experiments, we demonstrate that ADAPT achieves superior performance in RareBench and accurately reflects the semantic information of rare attributes, providing deterministic and precise control over the generation of rare compositions without compromising visual integrity.
- Abstract(参考訳): テキストと画像の合成における稀な構成概念の生成は、拡散モデル、特にトレーニングデータで珍しい属性にとって、依然として課題である。
R2Fのような近年のアプローチでは、LLMをプロンプトスケジューリングに活用することでこの問題に対処しているが、言語モデルのランダム性や反復的なテキスト埋め込みスイッチングからの準最適ガイダンスにより、固有のばらつきに悩まされている。
これらの問題に対処するため,本研究では,レアコンセプトの構成を強化するための一貫したガイダンスを提供する,決定論的に計画を立て,セマンティックにスケジュールを整合させる,トレーニング不要なフレームワークであるADAPTフレームワークを提案する。
注意点と直交成分を活用することにより、ADAPTはRareBenchベンチマークにおける稀な概念の合成生成を、追加のトレーニングや微調整なしで大幅に強化する。
包括的な実験を通じて、ADAPTはレア属性のセマンティック情報を正確に反映し、視覚的整合性を損なうことなく、レアコンポジションの生成を決定論的かつ正確に制御できることを示した。
関連論文リスト
- Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation [6.826122099204317]
低密度領域における拡散過程を安定化させるために, 適応補助プロンプトブレンディング (AAPB) を導入する。
AAPBは、まれな概念生成におけるセマンティックサポートと、画像編集における構造的サポートを提供する。
RareBenchとFlowEditのデータセットに一貫した改善を実証的に示す。
論文 参考訳(メタデータ) (2026-03-19T17:12:03Z) - Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Explaining Time Series Classifiers with PHAR: Rule Extraction and Fusion from Post-hoc Attributions [7.51289645756884]
PHARは、数値的特徴属性を構造化された可読性ルールに変換するフレームワークである。
専用ルール融合ステップは、重み付け選択やラッソベースの精錬のような戦略を用いてルールセットを統合する。
UCR/UEA時系列分類アーカイブの実験は、PHARがTS分類タスクの解釈可能性、決定透明性、実用的な適用性を改善することを実証している。
論文 参考訳(メタデータ) (2025-08-03T09:45:40Z) - Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。
クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。
ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文 参考訳(メタデータ) (2025-07-17T05:47:19Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - PLOT-TAL: Prompt Learning with Optimal Transport for Few-Shot Temporal Action Localization [8.173421927978117]
本稿では,プロンプトアンサンブルと映像の時間的特徴を最適に一致させるフレームワークであるPLOT-TALを紹介する。
本稿では,THUMOS'14 と EPIC-Kitchens の難易度ベンチマークを,複雑なメタ学習を必要とせず,新たな最先端技術を確立した。
論文 参考訳(メタデータ) (2024-03-27T18:08:14Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。