論文の概要: T2I-ConBench: Text-to-Image Benchmark for Continual Post-training
- arxiv url: http://arxiv.org/abs/2505.16875v1
- Date: Thu, 22 May 2025 16:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.457144
- Title: T2I-ConBench: Text-to-Image Benchmark for Continual Post-training
- Title(参考訳): T2I-ConBench: 継続的なポストトレーニングのためのテキストと画像のベンチマーク
- Authors: Zhehao Huang, Yuhang Liu, Yixin Lou, Zhengbao He, Mingzhen He, Wenxing Zhou, Tao Li, Kehan Li, Zeyi Huang, Xiaolin Huang,
- Abstract要約: 連続的なポストトレーニングは、1つのテキストからイメージへの拡散モデルを適用して、別々のモデルのコストを発生させることなく新しいタスクを学習する。
T2I-ConBenchは,テキスト・ツー・イメージ・モデルの連続的ポストトレーニングのための統一ベンチマークである。
総合的な評価のために、自動メトリクス、ヒューマン・リファレンス・モデリング、視覚言語によるQAを組み合わせる。
- 参考スコア(独自算出の注目度): 25.90279125119419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual post-training adapts a single text-to-image diffusion model to learn new tasks without incurring the cost of separate models, but naive post-training causes forgetting of pretrained knowledge and undermines zero-shot compositionality. We observe that the absence of a standardized evaluation protocol hampers related research for continual post-training. To address this, we introduce T2I-ConBench, a unified benchmark for continual post-training of text-to-image models. T2I-ConBench focuses on two practical scenarios, item customization and domain enhancement, and analyzes four dimensions: (1) retention of generality, (2) target-task performance, (3) catastrophic forgetting, and (4) cross-task generalization. It combines automated metrics, human-preference modeling, and vision-language QA for comprehensive assessment. We benchmark ten representative methods across three realistic task sequences and find that no approach excels on all fronts. Even joint "oracle" training does not succeed for every task, and cross-task generalization remains unsolved. We release all datasets, code, and evaluation tools to accelerate research in continual post-training for text-to-image models.
- Abstract(参考訳): 連続的なポストトレーニングは、個別のモデルのコストを伴わずに新しいタスクを学ぶために単一のテキスト・ツー・イメージ拡散モデルを適用するが、素直なポストトレーニングは事前訓練された知識を忘れ、ゼロショットの合成性を損なう。
本研究は, 定型評価プロトコルの欠如が, 継続学習におけるハマー関連研究の欠如を観察するものである。
そこで本研究では,テキスト・ツー・イメージ・モデルの継続後トレーニングのための統合ベンチマークであるT2I-ConBenchを紹介する。
T2I-ConBenchは、アイテムのカスタマイズとドメイン拡張という2つの実践シナリオに注目し、(1)一般性の維持、(2)ターゲットタスクのパフォーマンス、(3)破滅的な忘れ、(4)クロスタスクの一般化の4つの次元を分析する。
総合的な評価のために、自動メトリクス、ヒューマン・リファレンス・モデリング、視覚言語によるQAを組み合わせる。
3つの現実的なタスクシーケンスにまたがって10の代表的なメソッドをベンチマークし、どのアプローチもすべての面で優れていないことを発見した。
共同の「おかしな」訓練でさえ全てのタスクで成功せず、クロスタスクの一般化は未解決のままである。
すべてのデータセット、コード、評価ツールをリリースし、テキスト・ツー・イメージモデルの継続的なポストトレーニングの研究を加速します。
関連論文リスト
- Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition [33.22316608406554]
本稿では,画像エンコーダとテキストエンコーダのパラメータ効率を両立させる手法を提案する。
具体的には,画像エンコーダのタスク固有の適応を設計し,特徴抽出時に最も識別性の高い情報をよく認識できるようにする。
我々は,視覚的特徴を意味的記述と同じ時間的段階に存在するように積極的にマッピングする,革新的な細粒度クロスモーダルアライメント戦略を開発した。
論文 参考訳(メタデータ) (2025-05-09T12:34:10Z) - CAMeL: Cross-modality Adaptive Meta-Learning for Text-based Person Retrieval [22.01591564940522]
モデル一般化能力を高めるために,クロスモーダル適応メタラーニング(CAMeL)に基づくドメインに依存しない事前学習フレームワークを提案する。
特に,現実シナリオの多様性と複雑さを反映した一連のタスクを開発する。
提案手法は,実世界のベンチマークにおける既存手法を超越するだけでなく,ロバスト性やスケーラビリティも示す。
論文 参考訳(メタデータ) (2025-04-26T03:26:30Z) - SCOT: Self-Supervised Contrastive Pretraining For Zero-Shot Compositional Retrieval [7.248145893361865]
合成画像検索(CIR)は、クエリ画像をユーザが提供するテキスト修正と組み合わせてターゲット画像を取得するマルチモーダル学習タスクである。
既存の方法は、FashionIQやCIRRといったラベル付き三重項のデータセットに基づいてモデルをトレーニングする、完全に教師付き学習に重点を置いている。
本研究では,既存の大規模画像・テキスト・ペア・データセットと大規模言語モデルの生成機能を組み合わせて,組込み合成ネットワークを対照的に訓練するゼロショット合成事前学習戦略であるSCOTを提案する。
論文 参考訳(メタデータ) (2025-01-12T07:23:49Z) - MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Unified Pre-training with Pseudo Texts for Text-To-Image Person
Re-identification [42.791647210424664]
事前訓練タスクは、T2I-ReID(text-to-image person re-identification)タスクに必須である。
これら2つのタスクの間には、パフォーマンスに影響を及ぼす2つの根本的な矛盾がある。
本稿では,T2I-ReIDタスクに特化して設計された統合事前学習パイプライン(UniPT)を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:11:36Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。