論文の概要: VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual
Programming Frameworks
- arxiv url: http://arxiv.org/abs/2309.09809v1
- Date: Mon, 18 Sep 2023 14:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:00:40.657214
- Title: VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual
Programming Frameworks
- Title(参考訳): VisualProg Distiller: 微調整不要なビジュアルプログラミングフレームワークを学ぶ
- Authors: Wentao Wan, Zeqing Wang, Nan Kang, Keze Wang, Zhiyu Shen, Liang Lin
- Abstract要約: ビジュアルプログラミング(VisualProg)は、学習なしで構成的な視覚タスクを実行することができるが、その性能はタスク固有の教師付き学習モデルに比べて著しく劣る。
分離された視覚サブタスク上で,各VisualProgサブモジュールの性能を最適化するために,プロセス知識を補足し,蒸留する方法であるVisualProg Distillerを提案する。
提案手法は,VisualProgの大幅な性能向上を実現し,比較対象の最先端手法を大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 51.08885395763549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an interpretable and universal neuro-symbolic paradigm based on Large
Language Models, visual programming (VisualProg) can execute compositional
visual tasks without training, but its performance is markedly inferior
compared to task-specific supervised learning models. To increase its
practicality, the performance of VisualProg on specific tasks needs to be
improved. However, the non-differentiability of VisualProg limits the
possibility of employing the fine-tuning strategy on specific tasks to achieve
further improvements. In our analysis, we discovered that significant
performance issues in VisualProg's execution originated from errors made by the
sub-modules at corresponding visual sub-task steps. To address this, we propose
``VisualProg Distiller", a method of supplementing and distilling process
knowledge to optimize the performance of each VisualProg sub-module on
decoupled visual sub-tasks, thus enhancing the overall task performance.
Specifically, we choose an end-to-end model that is well-performed on the given
task as the teacher and further distill the knowledge of the teacher into the
invoked visual sub-modules step-by-step based on the execution flow of the
VisualProg-generated programs. In this way, our method is capable of
facilitating the fine-tuning of the non-differentiable VisualProg frameworks
effectively. Extensive and comprehensive experimental evaluations demonstrate
that our method can achieve a substantial performance improvement of
VisualProg, and outperforms all the compared state-of-the-art methods by large
margins. Furthermore, to provide valuable process supervision for the GQA task,
we construct a large-scale dataset by utilizing the distillation process of our
method.
- Abstract(参考訳): 大きな言語モデルに基づいた解釈可能で普遍的なニューロシンボリックパラダイムとして、ビジュアルプログラミング(visualprog)はトレーニングなしで構成的な視覚的タスクを実行することができるが、そのパフォーマンスはタスク固有の教師付き学習モデルよりも著しく劣る。
実用性を高めるために、特定のタスクにおけるVisualProgのパフォーマンスを改善する必要がある。
しかし、VisualProgの非差別性は、さらなる改善を達成するために特定のタスクに微調整戦略を採用する可能性を制限する。
解析の結果、VisualProgの実行における重要なパフォーマンス問題は、対応するビジュアルサブタスクステップのサブモジュールによるエラーに起因することがわかった。
そこで本稿では,分離した視覚サブタスク上でのVisualProgサブモジュールの性能を最適化するため,プロセス知識を補足して蒸留する方法である ``VisualProg Distiller を提案する。
具体的には、教師として与えられたタスクによく適合するエンドツーエンドモデルを選択し、さらにVisualProg生成プログラムの実行フローに基づいて、実行された視覚サブモジュールに教師の知識を抽出する。
このようにして、本手法は、微分不可能なVisualProgフレームワークの微調整を効果的に行うことができる。
広範かつ包括的な実験的評価により,本手法はVisualProgの大幅な性能向上を実現し,比較した最先端手法を大きなマージンで上回った。
さらに,本手法の蒸留プロセスを利用して大規模データセットを構築することにより,GQAタスクに有用なプロセス管理を実現する。
関連論文リスト
- What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Task Aware Feature Extraction Framework for Sequential Dependence
Multi-Task Learning [1.0765359420035392]
我々は厳密な数学的観点から逐次依存型MLLを解析する。
逐次依存型MLLのためのタスク認識特徴抽出(TAFE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-06T13:12:59Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [74.97906634396985]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [56.628198024857056]
本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。