Fugu-MT 論文翻訳(概要): Leveraging Vision-Language Foundation Models for Fine-Grained Downstream Tasks

論文の概要: Leveraging Vision-Language Foundation Models for Fine-Grained Downstream Tasks

arxiv url: http://arxiv.org/abs/2307.06795v1
Date: Thu, 13 Jul 2023 15:05:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-14 14:18:56.264349
Title: Leveraging Vision-Language Foundation Models for Fine-Grained Downstream Tasks
Title（参考訳）: 細粒化下流タスクのためのビジョンランゲージ基礎モデルの活用
Authors: Denis Coquenet and Cl\'ement Rambour and Emanuele Dalsasso and Nicolas Thome
Abstract要約: CLIPのようなビジョン言語基盤モデルは、多くのタスクやデータセットで印象的なゼロショットのパフォーマンスを示している。本稿では,視覚言語基礎モデルの能力をさらに活用するために,肯定的/否定的なプロンプト定式化に基づくマルチタスク微調整戦略を提案する。
参考スコア（独自算出の注目度）: 17.367599062853156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language foundation models such as CLIP have shown impressive zero-shot performance on many tasks and datasets, especially thanks to their free-text inputs. However, they struggle to handle some downstream tasks, such as fine-grained attribute detection and localization. In this paper, we propose a multitask fine-tuning strategy based on a positive/negative prompt formulation to further leverage the capacities of the vision-language foundation models. Using the CLIP architecture as baseline, we show strong improvements on bird fine-grained attribute detection and localization tasks, while also increasing the classification performance on the CUB200-2011 dataset. We provide source code for reproducibility purposes: it is available at https://github.com/FactoDeepLearning/MultitaskVLFM.
Abstract（参考訳）: clipのような視覚言語の基礎モデルは、多くのタスクやデータセットで印象的なゼロショットパフォーマンスを示してきた。しかし、細かな属性検出やローカライズといった下流タスクの処理には苦労している。本稿では,視覚言語基礎モデルのキャパシティをさらに活用するために,肯定的/否定的プロンプトに基づくマルチタスクの微調整戦略を提案する。 CLIPアーキテクチャをベースラインとして,鳥の細粒度属性の検出と局所化タスクを改良するとともに,CUB200-2011データセットの分類性能を向上させる。ソースコードはhttps://github.com/factodeeplearning/multitaskvlfmで利用可能です。

関連論文リスト

Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。 RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文参考訳（メタデータ） (2025-05-03T04:58:29Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.46562066023117]
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-08T08:36:12Z)
FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文参考訳（メタデータ） (2024-09-23T06:56:51Z)
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:04:34Z)
RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。 Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文参考訳（メタデータ） (2024-06-27T13:08:35Z)
Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。 MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文参考訳（メタデータ） (2024-01-09T10:15:59Z)
Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions [24.596929878045568]
我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
論文参考訳（メタデータ） (2024-01-04T08:39:13Z)
VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文参考訳（メタデータ） (2023-10-11T17:49:13Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文参考訳（メタデータ） (2022-12-08T13:37:17Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文参考訳（メタデータ） (2020-10-07T17:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。