論文の概要: DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2602.00795v1
- Date: Sat, 31 Jan 2026 16:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.406229
- Title: DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning
- Title(参考訳): DVLA-RL:Few-Shot Learningのための強化学習ゲーティングを用いたデュアルレベル視覚言語アライメント
- Authors: Wenhao Li, Xianjing Meng, Qiangchang Wang, Zhongyi Han, Zhibin Wu, Yilong Yin,
- Abstract要約: 少数のサンプルしか持たない新しいカテゴリーに一般化することを目的としている。
最近のアプローチでは、クラス名から派生したセマンティックな埋め込みで視覚表現を豊かにするために、大きな言語モデルが組み込まれている。
強化学習ゲーティング(DVLA-RL)を用いたデュアルレベル視覚言語アライメントを提案する。
- 参考スコア(独自算出の注目度): 53.36809572236361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot learning (FSL) aims to generalize to novel categories with only a few samples. Recent approaches incorporate large language models (LLMs) to enrich visual representations with semantic embeddings derived from class names. However, they overlook progressive and adaptive alignment between vision and language from low-level to high-level semantics, resulting in limited semantic gains. To address these challenges, we propose Dual-level Vision-Language Alignment with Reinforcement Learning gating (DVLA-RL), which consists of Dual-level Semantic Construction (DSC) and RL-gated Attention (RLA). Specifically, DSC conditions LLMs on both class names and support samples to generate discriminative attributes, progressively selects the most relevant ones, and then synthesizes them into coherent class descriptions. This process provides complementary low-level attributes and high-level descriptions, enabling both fine-grained grounding and holistic class understanding. To dynamically integrate dual-level semantics along with the visual network layers, RLA formulates cross-modal fusion as a sequential decision process. A lightweight policy trained with episodic REINFORCE adaptively adjusts the contributions of self-attention and cross-attention to integrate textual and visual tokens. As a result, shallow layers refine local attributes and deep layers emphasize global semantics, enabling more precise cross-modal alignment. This achieves class-specific discrimination and generalized representations with merely a few support samples. DVLA-RL achieves new state-of-the-art performance across nine benchmarks in three diverse FSL scenarios.
- Abstract(参考訳): FSL (Few-shot Learning) は、少数のサンプルしか持たない新しいカテゴリに一般化することを目的としている。
最近のアプローチでは、クラス名から派生したセマンティック埋め込みで視覚表現を豊かにするために、大きな言語モデル(LLM)が組み込まれている。
しかし、彼らは視覚と言語の間の進歩的かつ適応的なアライメントを低レベルから高レベルのセマンティクスから見落としており、結果としてセマンティクスの利得は限られている。
これらの課題に対処するため、DVLA-RL(Dual-level Semantic Construction)とRL-gated Attention(RLA)からなるDVLA-RL(Dual-level Vision-Language Alignment with Reinforcement Learning Gaating)を提案する。
具体的には、DSC条件のLCMをクラス名とサポートサンプルの両方に設定し、識別属性を生成し、最も関連性の高い属性を徐々に選択し、それらを一貫性のあるクラス記述に合成する。
このプロセスは、補足的な低レベル属性と高レベル記述を提供し、きめ細かい接地と全体論的クラス理解の両方を可能にします。
視覚ネットワーク層とデュアルレベルセマンティクスを動的に統合するために、RLAはシーケンシャルな決定プロセスとしてクロスモーダル融合を定式化する。
エピソードなREINFORCEで訓練された軽量なポリシーは、テキストトークンとビジュアルトークンを統合するために、自己注意と相互注意の貢献を適応的に調整する。
その結果、浅い層は局所的な属性を洗練し、深い層はグローバルなセマンティクスを強調し、より正確なクロスモーダルアライメントを可能にする。
これは、いくつかのサポートサンプルだけで、クラス固有の識別と一般化された表現を実現する。
DVLA-RLは、9つのベンチマークで3つの異なるFSLシナリオで、最先端のパフォーマンスを新たに達成する。
関連論文リスト
- VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning [49.28966310502341]
少数のラベル付きサポートサンプルから新しい概念を認識することを目的としている。
近年の研究では、追加の意味情報を組み込んだり、複雑な意味融合モジュールを設計することでサポート機能を強化している。
本稿では,Few-Shot Learningのための大規模言語モデルを用いた視覚とテキストをブリッジする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T16:52:47Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。
リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。
本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文 参考訳(メタデータ) (2025-06-27T02:31:37Z) - VladVA: Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。
我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-12-05T17:54:27Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。