論文の概要: Preventing Shortcuts in Adapter Training via Providing the Shortcuts
- arxiv url: http://arxiv.org/abs/2510.20887v1
- Date: Thu, 23 Oct 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.288187
- Title: Preventing Shortcuts in Adapter Training via Providing the Shortcuts
- Title(参考訳): ショートカット提供によるアダプタトレーニングにおけるショートカットの防止
- Authors: Anujraaj Argo Goyal, Guocheng Gordon Qian, Huseyin Coskun, Aarush Gupta, Himmy Tam, Daniil Ostashev, Ju Hu, Dhritiman Sagar, Sergey Tulyakov, Kfir Aberman, Kuan-Chieh Jackson Wang,
- Abstract要約: アダプタは、単一イメージの再構成目標を使用して、被写体アイデンティティなどの特定のターゲット属性をキャプチャするために訓練される。
入力画像は、必然的に視覚的要因の混合を含むため、アダプタは、ターゲット属性をポーズ、表現、照明などの偶発的な属性と絡み合う傾向にある。
この急激な相関問題は一般化を制限し、入力テキストプロンプトに固執するモデルの能力を阻害する。
Shortcut-Rerouted Adapter Training では、ControlNet や LoRA などの補助モジュールを介して、コンバウンド要因をルーティングすることで、アダプタの内部化のインセンティブを排除している。
- 参考スコア(独自算出の注目度): 40.019693620907184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapter-based training has emerged as a key mechanism for extending the capabilities of powerful foundation image generators, enabling personalized and stylized text-to-image synthesis. These adapters are typically trained to capture a specific target attribute, such as subject identity, using single-image reconstruction objectives. However, because the input image inevitably contains a mixture of visual factors, adapters are prone to entangle the target attribute with incidental ones, such as pose, expression, and lighting. This spurious correlation problem limits generalization and obstructs the model's ability to adhere to the input text prompt. In this work, we uncover a simple yet effective solution: provide the very shortcuts we wish to eliminate during adapter training. In Shortcut-Rerouted Adapter Training, confounding factors are routed through auxiliary modules, such as ControlNet or LoRA, eliminating the incentive for the adapter to internalize them. The auxiliary modules are then removed during inference. When applied to tasks like facial and full-body identity injection, our approach improves generation quality, diversity, and prompt adherence. These results point to a general design principle in the era of large models: when seeking disentangled representations, the most effective path may be to establish shortcuts for what should NOT be learned.
- Abstract(参考訳): アダプタベースのトレーニングは、強力な基盤画像生成機能を拡張するための重要なメカニズムとして現れ、パーソナライズされ、スタイリングされたテキスト・ツー・イメージの合成を可能にしている。
これらのアダプタは、通常、単画像再構成の目的を用いて、被写体識別のような特定の対象属性をキャプチャするために訓練される。
しかし、入力画像は必然的に視覚的要因の混合を含むため、アダプタは、ターゲット属性をポーズ、表情、照明などの偶発的な属性と絡み合う傾向にある。
この急激な相関問題は一般化を制限し、入力テキストプロンプトに固執するモデルの能力を阻害する。
本研究では、アダプタトレーニング中に排除したいショートカットを提供するという、シンプルで効果的なソリューションを明らかにします。
Shortcut-Rerouted Adapter Trainingでは、ControlNetやLoRAなどの補助モジュールを介して、コンバウンディングファクタをルーティングすることで、アダプタの内部化のインセンティブを排除している。
補助モジュールは推論中に削除される。
顔や全身のアイデンティティー注入のようなタスクに適用すると、我々のアプローチは生成品質、多様性、即時順守を改善します。
これらの結果は、大きなモデルの時代における一般的な設計原則を示唆している: 絡み合った表現を求めるとき、最も効果的な経路は、学習すべきでないものに対するショートカットを確立することである。
関連論文リスト
- Attn-Adapter: Attention Is All You Need for Online Few-shot Learner of Vision-Language Model [2.2099003320482393]
Attn-Adapterは、CLIPの適応性を高める新しいオンライン数発学習フレームワークである。
我々の設計では、サポート例を使ってカテゴリ埋め込みを洗練するMemory Attn-Adapterと、ローカル機能とグローバル機能を統合することで画像埋め込みを強化したLocal-Global Attn-Adapterという2つのコンポーネントを通じて、データセット固有の情報を組み込んでいる。
Attn-Adapterは、クロスカテゴリとクロスデータセットの一般化において最先端のメソッドより優れており、CLIPバックボーン間の効率的な推論とスケーリングを維持している。
論文 参考訳(メタデータ) (2025-09-04T05:42:02Z) - Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - Single-weight Model Editing for Post-hoc Spurious Correlation Neutralization [54.8794775172033]
ニューラルネットワークのトレーニングは、トレーニング損失を最小限に抑えるショートカットとして、最も単純な機能を利用する傾向がある。
これらの特徴のいくつかは、ターゲットラベルと急激な相関関係があり、モデルによる誤った予測につながる可能性がある。
本稿では,一重の修正を行なえる独特な厳密なクラス除去手法を提案する。
論文 参考訳(メタデータ) (2025-01-24T02:22:42Z) - Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild [29.23745176017559]
例題ベースセマンティック画像合成は、例題の外観を保ちながら意味内容と整合した画像を生成する。
最近のチューニングフリーアプローチでは、暗黙のクロスイメージマッチングを通じて局所的な外観を転送することでこの問題に対処している。
そこで本稿では,AM-Adapterを用いて,先進的なセマンティック画像合成手法を提案する。
論文 参考訳(メタデータ) (2024-12-04T09:17:47Z) - Forensics Adapter: Unleashing CLIP for Generalizable Face Forgery Detection [55.142997327506706]
ここでは,CLIPを有効かつ一般化可能な顔偽造検知器に変換するためのアダプタネットワークについて述べる。
タスク固有の目的によってガイドされる、偽の顔に固有のブレンディング境界である、偽の痕跡を学習するためのアダプタを導入する。
トレーニング可能なパラメータは5.7Mに過ぎず,5つの標準データセットの平均で約7%向上した。
論文 参考訳(メタデータ) (2024-11-29T14:02:11Z) - AdaIR: Exploiting Underlying Similarities of Image Restoration Tasks with Adapters [57.62742271140852]
AdaIRは、パフォーマンスを犠牲にすることなく、低コストで効率的なトレーニングを可能にする新しいフレームワークである。
AdaIRは軽量でタスク固有のモジュールのトレーニングのみを必要とし、より効率的なストレージとトレーニング体制を確保する。
論文 参考訳(メタデータ) (2024-04-17T15:31:06Z) - AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。
最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文 参考訳(メタデータ) (2020-10-22T17:49:42Z) - Automatic Shortcut Removal for Self-Supervised Representation Learning [39.636691159890354]
自己教師付き視覚表現学習では、人間のアノテーションを使わずにラベルを安価に生成できる「テキストタスク」に基づいて特徴抽出器を訓練する。
このような「ショートカット」機能や、その効果を減らすための手書き設計スキームの特定に多くの作業が費やされている。
この仮定は、"lens"ネットワークをトレーニングして、プリテキストタスクのパフォーマンスを最大に低下させる小さな画像変更を行うことによって、一般的なプリテキストタスクやデータセットにまたがって成り立つことを示す。
論文 参考訳(メタデータ) (2020-02-20T16:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。