論文の概要: VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2509.25033v1
- Date: Mon, 29 Sep 2025 16:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.138668
- Title: VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning
- Title(参考訳): VT-FSL:短いショット学習のためのLCMを用いたブリージングビジョンとテキスト
- Authors: Wenhao Li, Qiangchang Wang, Xianjing Meng, Zhibin Wu, Yilong Yin,
- Abstract要約: 少数のラベル付きサポートサンプルから新しい概念を認識することを目的としている。
近年の研究では、追加の意味情報を組み込んだり、複雑な意味融合モジュールを設計することでサポート機能を強化している。
本稿では,Few-Shot Learningのための大規模言語モデルを用いた視覚とテキストをブリッジする新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.28966310502341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot learning (FSL) aims to recognize novel concepts from only a few labeled support samples. Recent studies enhance support features by incorporating additional semantic information or designing complex semantic fusion modules. However, they still suffer from hallucinating semantics that contradict the visual evidence due to the lack of grounding in actual instances, resulting in noisy guidance and costly corrections. To address these issues, we propose a novel framework, bridging Vision and Text with LLMs for Few-Shot Learning (VT-FSL), which constructs precise cross-modal prompts conditioned on Large Language Models (LLMs) and support images, seamlessly integrating them through a geometry-aware alignment. It mainly consists of Cross-modal Iterative Prompting (CIP) and Cross-modal Geometric Alignment (CGA). Specifically, the CIP conditions an LLM on both class names and support images to generate precise class descriptions iteratively in a single structured reasoning pass. These descriptions not only enrich the semantic understanding of novel classes but also enable the zero-shot synthesis of semantically consistent images. The descriptions and synthetic images act respectively as complementary textual and visual prompts, providing high-level class semantics and low-level intra-class diversity to compensate for limited support data. Furthermore, the CGA jointly aligns the fused textual, support, and synthetic visual representations by minimizing the kernelized volume of the 3-dimensional parallelotope they span. It captures global and nonlinear relationships among all representations, enabling structured and consistent multimodal integration. The proposed VT-FSL method establishes new state-of-the-art performance across ten diverse benchmarks, including standard, cross-domain, and fine-grained few-shot learning scenarios. Code is available at https://github.com/peacelwh/VT-FSL.
- Abstract(参考訳): FSL(Few-shot Learning)は、少数のラベル付きサポートサンプルから新しい概念を認識することを目的としている。
近年の研究では、追加の意味情報を組み込んだり、複雑な意味融合モジュールを設計することでサポート機能を強化している。
しかし、実際の事例では根拠がないために視覚的証拠に矛盾する幻覚的意味論に苦しめられ、ノイズの多いガイダンスと高価な修正がもたらされる。
これらの課題に対処するために,大規模言語モデル (LLM) に規定された正確なクロスモーダルプロンプトを構築し,画像をサポートし,幾何学的アライメントを通じてシームレスに統合する,Few-Shot Learning (VT-FSL) のためのビジョンとテキストをLLMでブリッジする新しいフレームワークを提案する。
主にCIP(Cross-modal Iterative Prompting)とCGA(Cross-modal Geometric Alignment)で構成されている。
具体的には、CIPは、クラス名とサポート画像の両方にLLMを条件付け、単一の構造化推論パスにおいて、正確なクラス記述を反復的に生成する。
これらの記述は、新しいクラスのセマンティック理解を深めるだけでなく、セマンティックな一貫性のある画像のゼロショット合成を可能にする。
記述と合成画像は相補的なテキストと視覚的プロンプトとして機能し、限られたサポートデータに補うために、高いレベルのクラス意味論と低レベルのクラス内多様性を提供する。
さらに、CGAは、融合したテキスト、サポート、および合成視覚表現を、それらが分散する3次元パラレルオトペの核化された体積を最小化することにより、共同で調整する。
全表現間の大域的および非線形的な関係を捉え、構造的かつ一貫したマルチモーダル積分を可能にする。
提案したVT-FSL法は,標準,クロスドメイン,微粒な数ショット学習シナリオを含む10種類のベンチマークにおいて,新たな最先端性能を確立する。
コードはhttps://github.com/peacelwh/VT-FSLで公開されている。
関連論文リスト
- SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation [2.7624021966289605]
Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。
本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。
我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-06T01:42:28Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。