論文の概要: NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2407.08672v1
- Date: Thu, 11 Jul 2024 17:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:30:47.702463
- Title: NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning
- Title(参考訳): NODE-Adapter:視覚言語推論のためのニューラル正規微分方程式
- Authors: Yi Zhang, Chun-Wun Cheng, Ke Yu, Zhihai He, Carola-Bibiane Schönlieb, Angelica I. Aviles-Rivero,
- Abstract要約: 既存の手法は視覚言語推論において3つの大きな課題に直面している。
ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法NODE-Adapterを提案する。
提案手法が既存の最先端手法を著しく上回っていることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする実験結果を得た。
- 参考スコア(独自算出の注目度): 30.440574052935407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of prototype-based vision-language reasoning problem. We observe that existing methods encounter three major challenges: 1) escalating resource demands and prolonging training times, 2) contending with excessive learnable parameters, and 3) fine-tuning based only on a single modality. These challenges will hinder their capability to adapt Vision-Language Models (VLMs) to downstream tasks. Motivated by this critical observation, we propose a novel method called NODE-Adapter, which utilizes Neural Ordinary Differential Equations for better vision-language reasoning. To fully leverage both visual and textual modalities and estimate class prototypes more effectively and accurately, we divide our method into two stages: cross-modal prototype construction and cross-modal prototype optimization using neural ordinary differential equations. Specifically, we exploit VLM to encode hand-crafted prompts into textual features and few-shot support images into visual features. Then, we estimate the textual prototype and visual prototype by averaging the textual features and visual features, respectively, and adaptively combine the textual prototype and visual prototype to construct the cross-modal prototype. To alleviate the prototype bias, we then model the prototype optimization process as an initial value problem with Neural ODEs to estimate the continuous gradient flow. Our extensive experimental results, which cover few-shot classification, domain generalization, and visual reasoning on human-object interaction, demonstrate that the proposed method significantly outperforms existing state-of-the-art approaches.
- Abstract(参考訳): 本稿では,プロトタイプに基づく視覚言語推論問題について考察する。
既存の手法が3つの大きな課題に直面するのを観察する。
1)資源需要の増大及び訓練期間の延長。
2)過度に学習可能なパラメータと競合すること、
3)単一モダリティのみに基づく微調整。
これらの課題は、VLM(Vision-Language Models)を下流タスクに適用する能力を妨げます。
この批判的な観察により,ニューラル正規微分方程式を用いて視覚言語推論を改善する新しい手法であるNODE-Adapterを提案する。
視覚的およびテキスト的モダリティの両面を効果的かつ正確に評価するために,我々は,ニューラルネットワークの常微分方程式を用いたクロスモーダルなプロトタイプ構築とクロスモーダルなプロトタイプ最適化の2段階に分割した。
具体的には、VLMを利用して手作りのプロンプトをテキスト機能にエンコードし、少数ショットのサポートイメージを視覚機能にエンコードする。
そして,テキスト特徴と視覚特徴をそれぞれ平均化してテキストプロトタイプと視覚プロトタイプを推定し,テキストプロトタイプと視覚プロトタイプを適応的に組み合わせてクロスモーダルプロトタイプを構築する。
次に、プロトタイプのバイアスを軽減するために、ニューラルネットワークによる初期値問題としてプロトタイプ最適化プロセスをモデル化し、連続的な勾配流を推定する。
提案手法が既存の最先端手法を著しく上回ることを示すために, 少数ショットの分類, ドメインの一般化, 視覚的推論を対象とする広範囲な実験結果を得た。
関連論文リスト
- Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。