論文の概要: Language-Aware Information Maximization for Transductive Few-Shot CLIP
- arxiv url: http://arxiv.org/abs/2509.00305v1
- Date: Sat, 30 Aug 2025 01:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.169246
- Title: Language-Aware Information Maximization for Transductive Few-Shot CLIP
- Title(参考訳): トランスダクティブFew-Shot CLIPのための言語対応情報最大化
- Authors: Ghassen Baklouti, Maxime Zanella, Ismail Ben Ayed,
- Abstract要約: 高い競争力を持つトランスダクティブスショットCLIP法を開発した。
本稿では,3つの相補的な用語を組み込んだ新たな言語認識情報MaximizatiOn(LIMO)の損失について紹介する。
本稿では,モデルパラメータのサブセットをトランスダクティブな数ショット設定で適応させる可能性を示すパフォーマンスの大幅な向上を観察する。
- 参考スコア(独自算出の注目度): 33.59483639150101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transductive few-shot learning has triggered an abundant literature focusing on vision-only models, but is still at a nascent stage within the recent context of foundational vision-language models (VLMs). Only a few recent methods addressed the problem, pointing to the potential of tranduction in VLMs and to the need for VLM-tailored methods. Building on this momentum, we leverage information-theoretic concepts and recent progress in parameter-efficient fine-tuning (PEFT), developing a highly competitive transductive few-shot CLIP method. Specifically, we introduce a novel Language-aware Information MaximizatiOn (LIMO) loss integrating three complementary terms: (i) the mutual information between the vision inputs and the textual class descriptions; (ii) a Kullback-Leibler (KL) divergence penalizing deviation of the network's probabilistic outputs from the text-driven zero-shot predictions; and (iii) a standard cross-entropy loss based on the labeled shots. Furthermore, we challenge the commonly followed fine-tuning practices in the context of transductive few-shot learning, and explore PEFT strategies, completely overlooked in this context. Surprisingly, we observe substantial boosts in performances, which points to the potential of adapting a subset of the model's parameters in the transductive few-shot setting. We report comprehensive evaluations, which show that LIMO outperforms the very recent transductive few-shot CLIP methods by a large margin and yields significant gains over the best-performing inductive methods. Our code is publicly available at:\[ \href{https://github.com/ghassenbaklouti/LIMO}{\text{here}} \]
- Abstract(参考訳): トランスダクティブな数ショット学習は、視覚のみのモデルに焦点を当てた豊富な文献を生んだが、近年の基盤的視覚言語モデル(VLM)の文脈において、まだ初期段階にある。
この問題に対処したのは、VLMにおける転写の可能性と、VLMに適した方法の必要性を指摘する、ごく最近の方法のみである。
この運動量に基づいて、情報理論の概念とパラメータ効率の微調整(PEFT)の最近の進歩を活用し、高度に競争力のある数ショットCLIP法を開発した。
具体的には,Language-aware Information MaximizatiOn (LIMO) を新たに導入し,3つの補完的用語を統合する。
一 視覚入力と書式記述との相互情報
(II)テキスト駆動ゼロショット予測によるネットワークの確率出力の偏差を補償するクルバック・リブラー(KL)の発散
(iii)ラベル付きショットに基づく標準のクロスエントロピー損失。
さらに,トランスダクティブな数ショット学習の文脈で一般的に追従される微調整の実践に挑戦し,この文脈で完全に見落としているPEFT戦略を探求する。
驚くべきことに、我々は性能の大幅な向上を観察し、これはトランスダクティブな数ショット設定でモデルのパラメータのサブセットを適用する可能性を示している。
LIMOは,近年のCLIP法よりも高い性能を示し,最も優れた誘導法よりも有意な利得を示した。
当社のコードは、次のように公開されています。
関連論文リスト
- Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Weighted Multi-Prompt Learning with Description-free Large Language Model Distillation [1.3381749415517021]
大規模言語モデル(LLM)をプロンプトに活用する新たなアプローチが提案されている。
既存の方法は典型的には LLM からテキストベースの応答(つまり記述)を抽出し、プロンプトに組み込む。
記述を抽出し, LLM から直接知識を抽出する新たな手法として, 記述不要なマルチプロンプト学習(DeMul)を提案する。
論文 参考訳(メタデータ) (2025-07-09T07:55:25Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。
我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文 参考訳(メタデータ) (2024-06-03T23:09:30Z) - Low-Rank Few-Shot Adaptation of Vision-Language Models [13.803180972839213]
視覚言語モデル(VLM)の少数ショット学習においてローランド適応(LoRA)を導入する。
驚くべきことに、我々の単純なCLIP-LoRA法は、トレーニング時間を短縮しつつ、大幅に改善されている。
本研究の結果は,アクセシブルラーニングとアダプタベースの研究の可能性を否定するものではない。
論文 参考訳(メタデータ) (2024-05-28T19:16:59Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。