Fugu-MT 論文翻訳(概要): Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners

論文の概要: Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners

arxiv url: http://arxiv.org/abs/2407.04003v1
Date: Thu, 4 Jul 2024 15:22:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 17:33:44.102241
Title: Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners
Title（参考訳）: 完全微調整型CLIPモデルは効率の良いFew-Shot学習者である
Authors: Mushui Liu, Bozheng Li, Yunlong Yu,
Abstract要約: 視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
参考スコア（独自算出の注目度）: 8.707819647492467
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Prompt tuning, which involves training a small set of parameters, effectively enhances the pre-trained Vision-Language Models (VLMs) to downstream tasks. However, they often come at the cost of flexibility and adaptability when the tuned models are applied to different datasets or domains. In this paper, we explore capturing the task-specific information via meticulous refinement of entire VLMs, with minimal parameter adjustments. When fine-tuning the entire VLMs for specific tasks under limited supervision, overfitting and catastrophic forgetting become the defacto factors. To mitigate these issues, we propose a framework named CLIP-CITE via designing a discriminative visual-text task, further aligning the visual-text semantics in a supervision manner, and integrating knowledge distillation techniques to preserve the gained knowledge. Extensive experimental results under few-shot learning, base-to-new generalization, domain generalization, and cross-domain generalization settings, demonstrate that our method effectively enhances the performance on specific tasks under limited supervision while preserving the versatility of the VLMs on other datasets.
Abstract（参考訳）: 少数のパラメータをトレーニングするプロンプトチューニングは、トレーニング済みのビジョンランゲージモデル(VLM)を下流タスクに効果的に拡張する。しかし、調整されたモデルが異なるデータセットやドメインに適用されると、柔軟性と適応性の犠牲になることが多い。本稿では,VLM全体の精細な精細化によるタスク固有情報の取得について,最小限のパラメータ調整で検討する。限られた監督下で特定のタスクのためにVLM全体を微調整すると、過度に適合し、破滅的な忘れがデファクト要因となる。これらの問題を緩和するために、識別的視覚テキストタスクを設計し、視覚テキストの意味を監督的に調整し、得られた知識を保存するために知識蒸留技術を統合するCLIP-CITEというフレームワークを提案する。本手法は他のデータセット上でのVLMの汎用性を保ちながら、限られた監督下での特定のタスクにおける性能を効果的に向上することを示す。

関連論文リスト

Personalized Vision via Visual In-Context Learning [62.85784251383279]
パーソナライズされた視覚のためのビジュアル・イン・コンテキスト・ラーニング・フレームワークを提案する。 PICOは基盤となる変換を推測し、再トレーニングせずに新しい入力に適用する。また,効率的な推論スケーリングによる信頼性向上を目的とした注意誘導型シードスコアラを提案する。
論文参考訳（メタデータ） (2025-09-29T17:58:45Z)
Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。 RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文参考訳（メタデータ） (2025-05-03T04:58:29Z)
Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
Federated Continual Instruction Tuning [39.344583304181135]
フェデレートラーニング(FL)は、すべての分散データとトレーニングリソースを活用して、共同トレーニングのオーバーヘッドを軽減する可能性がある。我々は,この現実的な課題をモデル化するために,FCIT(Federated Continual Instruction Tuning)ベンチマークを導入する。提案手法は, 様々なレベルのデータと大惨な忘れを伴って, モデル性能を著しく向上させる。
論文参考訳（メタデータ） (2025-03-17T07:58:06Z)
Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文参考訳（メタデータ） (2025-02-17T12:26:34Z)
Unified Parameter-Efficient Unlearning for LLMs [25.195126838721492]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクに対する高度な理解と推論を可能にする。これは、モデルが不注意に機密情報や望ましくない情報を保持および拡散する可能性があるため、重要なプライバシーとセキュリティ上の懸念を提起する。本稿では,非学習タスクを体系的に分類し,影響関数を用いた高精度な調整を行う,新しいインスタンス単位のアンラーニングフレームワークLLMEraserを紹介する。
論文参考訳（メタデータ） (2024-11-30T07:21:02Z)
Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳（メタデータ） (2024-11-23T02:34:33Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-11-04T19:55:32Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文参考訳（メタデータ） (2024-02-04T04:42:05Z)
Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。 TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文参考訳（メタデータ） (2022-11-18T15:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。