論文の概要: TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
- arxiv url: http://arxiv.org/abs/2410.12183v2
- Date: Tue, 12 Nov 2024 09:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:52.395796
- Title: TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
- Title(参考訳): TransAgent:異種エージェント協調によるトランスジェントビジョン-言語基礎モデル
- Authors: Yiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang,
- Abstract要約: 視覚言語基礎モデル(CLIPなど)は、大規模な画像テキスト事前学習により、転送学習におけるその能力を示している。
本稿では,分離されたエージェントの知識を統一的に伝達する,汎用的で簡潔なTransAgentフレームワークを提案する。
われわれのTransAgentは、11の視覚的認識データセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 33.90173194178523
- License:
- Abstract: Vision-language foundation models (such as CLIP) have recently shown their power in transfer learning, owing to large-scale image-text pre-training. However, target domain data in the downstream tasks can be highly different from the pre-training phase, which makes it hard for such a single model to generalize well. Alternatively, there exists a wide range of expert models that contain diversified vision and/or language knowledge pre-trained on different modalities, tasks, networks, and datasets. Unfortunately, these models are "isolated agents" with heterogeneous structures, and how to integrate their knowledge for generalizing CLIP-like models has not been fully explored. To bridge this gap, we propose a general and concise TransAgent framework, which transports the knowledge of the isolated agents in a unified manner, and effectively guides CLIP to generalize with multi-source knowledge distillation. With such a distinct framework, we flexibly collaborate with 11 heterogeneous agents to empower vision-language foundation models, without further cost in the inference phase. Finally, our TransAgent achieves state-of-the-art performance on 11 visual recognition datasets. Under the same low-shot setting, it outperforms the popular CoOp with around 10% on average, and 20% on EuroSAT which contains large domain shifts.
- Abstract(参考訳): 視覚言語基礎モデル(CLIPなど)は、大規模な画像テキスト事前学習により、転送学習におけるその能力を示している。
しかし、下流タスクのターゲットとなるドメインデータは、事前学習フェーズと大きく異なる場合があるため、そのような単一モデルの一般化が困難になる。
あるいは、さまざまなモダリティ、タスク、ネットワーク、データセットに基づいて事前訓練された、多様なビジョンと/または言語知識を含む、幅広い専門家モデルが存在する。
残念なことに、これらのモデルは異種構造を持つ「分離されたエージェント」であり、CLIPのようなモデルを一般化するための知識を統合する方法はまだ十分に研究されていない。
このギャップを埋めるために,分離されたエージェントの知識を統一的に輸送する汎用的かつ簡潔なTransAgentフレームワークを提案する。
このような異なる枠組みにより、我々は11の異種エージェントと柔軟に協力し、推論フェーズのさらなるコストを伴わずに、視覚言語基盤モデルを強化する。
最後に、TransAgentは11の視覚的認識データセット上で最先端のパフォーマンスを達成する。
同じローショット設定で、人気の高いCoOpを平均で10%、大きなドメインシフトを含むEuroSATで20%で上回ります。
関連論文リスト
- Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文 参考訳(メタデータ) (2024-04-07T09:01:50Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Heterogeneous Ensemble Knowledge Transfer for Training Large Models in
Federated Learning [22.310090483499035]
フェデレートラーニング(FL)は、エッジデバイスがプライベートデータを中央集約サーバに公開することなく、協調的にモデルを学習することを可能にする。
既存のFLアルゴリズムの多くは、クライアントとサーバにまたがってデプロイされるのと同じアーキテクチャのモデルを必要とする。
本稿では,Fed-ETと呼ばれる新しいアンサンブル知識伝達手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T05:18:32Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Does language help generalization in vision models? [0.0]
非常に大きな教師付き画像データセット(ImageNet-21k)で訓練された視覚モデルは、そのマルチモーダル画像データセット(CLIP)と同じくらい効率的に一般化できることを示す。
他の標準的な視覚モデルや言語モデルと比較すると、BiT-Mの潜在表現はCLIPと同じ「言語」であることが判明した。
論文 参考訳(メタデータ) (2021-04-16T18:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。