論文の概要: DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
- arxiv url: http://arxiv.org/abs/2503.03651v1
- Date: Wed, 05 Mar 2025 16:26:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:57.247596
- Title: DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles
- Title(参考訳): DoraCycle:マルチモーダルサイクルにおける統一生成モデルのドメイン指向適応
- Authors: Rui Zhao, Weijia Mao, Mike Zheng Shou,
- Abstract要約: 本研究では,テキスト・ツー・テキスト・トゥ・テキストと画像・ツー・テキスト・トゥ・画像という2つのマルチモーダル・サイクルを統合したDoraCycleを提案する。
モデルは、両方のエンドポイントが同じモダリティを共有するサイクルエンドポイントで計算されるクロスエントロピー損失によって最適化される。
特定のアイデンティティのような新しいペアの知識を含むタスクでは、小さなペアのイメージテキスト例と大規模な未ペアデータの組み合わせが十分である。
- 参考スコア(独自算出の注目度): 19.096747443000194
- License:
- Abstract: Adapting generative models to specific domains presents an effective solution for satisfying specialized requirements. However, adapting to some complex domains remains challenging, especially when these domains require substantial paired data to capture the targeted distributions. Since unpaired data from a single modality, such as vision or language, is more readily available, we utilize the bidirectional mappings between vision and language learned by the unified generative model to enable training on unpaired data for domain adaptation. Specifically, we propose DoraCycle, which integrates two multimodal cycles: text-to-image-to-text and image-to-text-to-image. The model is optimized through cross-entropy loss computed at the cycle endpoints, where both endpoints share the same modality. This facilitates self-evolution of the model without reliance on annotated text-image pairs. Experimental results demonstrate that for tasks independent of paired knowledge, such as stylization, DoraCycle can effectively adapt the unified model using only unpaired data. For tasks involving new paired knowledge, such as specific identities, a combination of a small set of paired image-text examples and larger-scale unpaired data is sufficient for effective domain-oriented adaptation. The code will be released at https://github.com/showlab/DoraCycle.
- Abstract(参考訳): 生成モデルを特定の領域に適応させることは、特別な要求を満たす効果的な解決策を示す。
しかし、複雑な領域への適応は依然として困難であり、特にこれらの領域がターゲットとする分布をキャプチャするために、かなりのペアデータを必要とする場合である。
視覚や言語などの単一モダリティからの未ペアデータの利用が容易であるため、統合生成モデルによって学習された視覚と言語間の双方向マッピングを利用して、ドメイン適応のための未ペアデータのトレーニングを可能にする。
具体的には,テキスト・ツー・テキスト・トゥ・テキストと画像・ツー・テキスト・トゥ・画像という2つのマルチモーダル・サイクルを統合したDoraCycleを提案する。
モデルは、両方のエンドポイントが同じモダリティを共有するサイクルエンドポイントで計算されるクロスエントロピー損失によって最適化される。
これにより、アノテーション付きテキストイメージペアに頼ることなく、モデルの自己進化が容易になる。
実験結果から,2組の知識(例えばスタイリゼーションなど)に依存しないタスクに対して,DoraCycleは未ペアデータのみを用いて,統一モデルを効果的に適用できることが示されている。
特定のアイデンティティのような新しいペアの知識を含むタスクでは、小さなペアのイメージテキスト例と大規模な未ペアデータの組み合わせは、効果的なドメイン指向適応に十分である。
コードはhttps://github.com/showlab/DoraCycle.comでリリースされる。
関連論文リスト
- Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - Multi-source Unsupervised Domain Adaptation on Graphs with Transferability Modeling [35.39202826643388]
本稿では、グラフモデリングに基づくドメインセレクタ、サブグラフノードセレクタ、およびバイレベルアライメント目的を備えた、グラフのためのSelective Multi-source Adaptation for Graph(method)を提案する。
5つのグラフデータセットの結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-14T22:05:21Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency
Training [4.336877104987131]
教師なしドメイン適応はセマンティックセグメンテーションの有望なテクニックである。
対象領域整合性訓練の概念に基づく非監視領域適応のための新しいフレームワークを提案する。
私たちのアプローチはシンプルで、実装が簡単で、トレーニング時にメモリ効率が向上します。
論文 参考訳(メタデータ) (2021-05-17T19:36:28Z) - Cross-modal Learning for Domain Adaptation in 3D Semantic Segmentation [11.895722159139108]
ドメイン適応はラベルが不足している場合の学習を可能にする重要なタスクである。
相互模倣による2つのモダリティの予測の整合性を実現するクロスモーダル学習を提案する。
我々は、ラベル付きデータに対する正確な予測とラベルなしのターゲットドメインデータに対するモダリティ間の一貫性のある予測をネットワークに制限する。
論文 参考訳(メタデータ) (2021-01-18T18:59:21Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Unsupervised Intra-domain Adaptation for Semantic Segmentation through
Self-Supervision [73.76277367528657]
畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。
この制限に対処するために、グラフィックエンジンから生成された注釈付きデータを使用してセグメンテーションモデルをトレーニングする。
ドメイン間およびドメイン間ギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T15:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。