論文の概要: A Stepwise Distillation Learning Strategy for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2309.09809v3
- Date: Sat, 22 Feb 2025 10:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:49:51.651027
- Title: A Stepwise Distillation Learning Strategy for Non-differentiable Visual Programming Frameworks on Visual Reasoning Tasks
- Title(参考訳): 視覚推論課題に基づく非微分可能ビジュアルプログラミングフレームワークのためのステップワイズ蒸留学習戦略
- Authors: Wentao Wan, Nan Kang, Zeqing Wang, Zhuojie Yang, Liang Lin, Keze Wang,
- Abstract要約: 各種VRタスクにおける非微分可能なVPorgのためのステップワイズ蒸留学習戦略を提案する。
我々のSDVPは、VProgの視覚サブタスクのための既存の、よく訓練されたタスク固有のモデルを、対応する視覚サブモジュールによって呼び出されるはるかに大きなVLMに段階的に蒸留する。
- 参考スコア(独自算出の注目度): 48.181520570707654
- License:
- Abstract: Recently, Visual Programming (VProg) has emerged as a significant framework for visual reasoning (VR) tasks due to its interpretability and cross-task generality. However, even with invoking powerful pre-trained Vision-Language models (VLMs) as visual sub-modules, the performance of VProg on specific VR tasks is markedly inferior compared to well-trained task-specific networks. Although invoking task-specific models can further enhance the performance of VProg on specific VR tasks, it greatly diminishes the cross-task generalization ability of VProg. Besides, the non-differentiable nature of VProg prevents direct fine-tuning on specific VR tasks for further performance improvement. Attempt to address these issues, we propose SDVP, a Stepwise Distillation learning strategy for non-differentiable VPorg across various VR tasks. Specifically, our SDVP stepwise distills the capabilities of existing, well-trained small task-specific models for decomposed visual sub-tasks in VProg into the much larger VLMs invoked by corresponding visual sub-modules. Besides, distilling the knowledge of little-size task-specific models into pre-trained larger VLMs rather than replacing them helps keep the cross-task abilities of VProgs. Extensive and comprehensive experimental results on different VProg frameworks demonstrate that our SDVP obtains significant performance gains on specific VR benchmarks, i.e., GQA (+2.4\%) and NLVRv2 (+6.2\%) for VisProg and GQA (+6.5\%) and NLVRv2 (+4.0\%) for ViperGPT, and also maintains a promising performance for VProg on unseen and previous VR tasks.
- Abstract(参考訳): 近年,ビジュアルプログラミング(VProg)が視覚的推論(VR)タスクの重要なフレームワークとして登場した。
しかしながら、視覚サブモジュールとして強力な事前学習型ビジョンランゲージモデル(VLM)を起動しても、特定のVRタスクにおけるVProgの性能は、よく訓練されたタスク固有ネットワークに比べて著しく劣っている。
タスク固有のモデルを呼び出すことで、特定のVRタスクにおけるVProgのパフォーマンスがさらに向上するが、VProgのクロスタスク一般化能力は大幅に低下する。
さらに、VProgの差別化不可能な性質は、特定のVRタスクの微調整を防止し、さらなるパフォーマンス向上を図っている。
これらの課題に対処するために,様々なVRタスクにまたがる非微分可能なVPorgのためのステップワイズ蒸留学習戦略であるSDVPを提案する。
具体的には、SDVPは、VProgの視覚サブタスクを分解する既存の、よく訓練されたタスク固有のモデルを、対応する視覚サブモジュールによって起動されるはるかに大きなVLMに段階的に蒸留する。
さらに、小サイズのタスク固有モデルの知識を、VProgsのクロスタスク能力を維持するのに役立つ代わりに、事前訓練されたより大きなVLMに蒸留する。
VProgフレームワークの大規模かつ包括的な実験結果から、当社のSDVPが特定のVRベンチマーク、すなわちVisProgのGQA(+2.4\%)とNLVRv2(+6.2\%)、ViperGPTのGQA(+6.5\%)とNLVRv2(+4.0\%)で大幅なパフォーマンス向上を達成し、また、未確認および以前のVRタスクにおけるVProgの有望なパフォーマンスを維持しています。
関連論文リスト
- Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。