論文の概要: A Stepwise Distillation Learning Strategy for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2309.09809v3
- Date: Sat, 22 Feb 2025 10:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:55.131933
- Title: A Stepwise Distillation Learning Strategy for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks
- Title(参考訳): 視覚推論課題に基づく非微分可能ビジュアルプログラミングフレームワークのためのステップワイズ蒸留学習戦略
- Authors: Wentao Wan, Nan Kang, Zeqing Wang, Zhuojie Yang, Liang Lin, Keze Wang,
- Abstract要約: 各種VRタスクにおける非微分可能なVPorgのためのステップワイズ蒸留学習戦略を提案する。
我々のSDVPは、VProgの視覚サブタスクのための既存の、よく訓練されたタスク固有のモデルを、対応する視覚サブモジュールによって呼び出されるはるかに大きなVLMに段階的に蒸留する。
- 参考スコア(独自算出の注目度): 48.181520570707654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Visual Programming (VProg) has emerged as a significant framework for visual reasoning (VR) tasks due to its interpretability and cross-task generality. However, even with invoking powerful pre-trained Vision-Language models (VLMs) as visual sub-modules, the performance of VProg on specific VR tasks is markedly inferior compared to well-trained task-specific networks. Although invoking task-specific models can further enhance the performance of VProg on specific VR tasks, it greatly diminishes the cross-task generalization ability of VProg. Besides, the non-differentiable nature of VProg prevents direct fine-tuning on specific VR tasks for further performance improvement. Attempt to address these issues, we propose SDVP, a Stepwise Distillation learning strategy for non-differentiable VPorg across various VR tasks. Specifically, our SDVP stepwise distills the capabilities of existing, well-trained small task-specific models for decomposed visual sub-tasks in VProg into the much larger VLMs invoked by corresponding visual sub-modules. Besides, distilling the knowledge of little-size task-specific models into pre-trained larger VLMs rather than replacing them helps keep the cross-task abilities of VProgs. Extensive and comprehensive experimental results on different VProg frameworks demonstrate that our SDVP obtains significant performance gains on specific VR benchmarks, i.e., GQA (+2.4\%) and NLVRv2 (+6.2\%) for VisProg and GQA (+6.5\%) and NLVRv2 (+4.0\%) for ViperGPT, and also maintains a promising performance for VProg on unseen and previous VR tasks.
- Abstract(参考訳): 近年,ビジュアルプログラミング(VProg)が視覚的推論(VR)タスクの重要なフレームワークとして登場した。
しかしながら、視覚サブモジュールとして強力な事前学習型ビジョンランゲージモデル(VLM)を起動しても、特定のVRタスクにおけるVProgの性能は、よく訓練されたタスク固有ネットワークに比べて著しく劣っている。
タスク固有のモデルを呼び出すことで、特定のVRタスクにおけるVProgのパフォーマンスがさらに向上するが、VProgのクロスタスク一般化能力は大幅に低下する。
さらに、VProgの差別化不可能な性質は、特定のVRタスクの微調整を防止し、さらなるパフォーマンス向上を図っている。
これらの課題に対処するために,様々なVRタスクにまたがる非微分可能なVPorgのためのステップワイズ蒸留学習戦略であるSDVPを提案する。
具体的には、SDVPは、VProgの視覚サブタスクを分解する既存の、よく訓練されたタスク固有のモデルを、対応する視覚サブモジュールによって起動されるはるかに大きなVLMに段階的に蒸留する。
さらに、小サイズのタスク固有モデルの知識を、VProgsのクロスタスク能力を維持するのに役立つ代わりに、事前訓練されたより大きなVLMに蒸留する。
VProgフレームワークの大規模かつ包括的な実験結果から、当社のSDVPが特定のVRベンチマーク、すなわちVisProgのGQA(+2.4\%)とNLVRv2(+6.2\%)、ViperGPTのGQA(+6.5\%)とNLVRv2(+4.0\%)で大幅なパフォーマンス向上を達成し、また、未確認および以前のVRタスクにおけるVProgの有望なパフォーマンスを維持しています。
関連論文リスト
- Test-Time Visual In-Context Tuning [85.62916644835902]
ビジュアル・イン・コンテキスト・ラーニング(VICL)は、いくつかのプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。
効果はあるものの、既存のVICLパラダイムは分布シフトの下での一般化性が劣っている。
VICT(Test-time Visual In-Context Tuning)は、1つのテストサンプルでVICLモデルをオンザフライで適用できる手法である。
論文 参考訳(メタデータ) (2025-03-27T17:59:52Z) - ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning [26.21049702284394]
大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。
タスク特化モデル(TSM)を統合することで、VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。
論文 参考訳(メタデータ) (2024-10-09T01:24:04Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z) - One does not fit all! On the Complementarity of Vision Encoders for
Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。
現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。
本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-12T16:31:39Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。