論文の概要: VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual
Programming Frameworks
- arxiv url: http://arxiv.org/abs/2309.09809v1
- Date: Mon, 18 Sep 2023 14:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 13:00:40.657214
- Title: VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual
Programming Frameworks
- Title(参考訳): VisualProg Distiller: 微調整不要なビジュアルプログラミングフレームワークを学ぶ
- Authors: Wentao Wan, Zeqing Wang, Nan Kang, Keze Wang, Zhiyu Shen, Liang Lin
- Abstract要約: ビジュアルプログラミング(VisualProg)は、学習なしで構成的な視覚タスクを実行することができるが、その性能はタスク固有の教師付き学習モデルに比べて著しく劣る。
分離された視覚サブタスク上で,各VisualProgサブモジュールの性能を最適化するために,プロセス知識を補足し,蒸留する方法であるVisualProg Distillerを提案する。
提案手法は,VisualProgの大幅な性能向上を実現し,比較対象の最先端手法を大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 51.08885395763549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an interpretable and universal neuro-symbolic paradigm based on Large
Language Models, visual programming (VisualProg) can execute compositional
visual tasks without training, but its performance is markedly inferior
compared to task-specific supervised learning models. To increase its
practicality, the performance of VisualProg on specific tasks needs to be
improved. However, the non-differentiability of VisualProg limits the
possibility of employing the fine-tuning strategy on specific tasks to achieve
further improvements. In our analysis, we discovered that significant
performance issues in VisualProg's execution originated from errors made by the
sub-modules at corresponding visual sub-task steps. To address this, we propose
``VisualProg Distiller", a method of supplementing and distilling process
knowledge to optimize the performance of each VisualProg sub-module on
decoupled visual sub-tasks, thus enhancing the overall task performance.
Specifically, we choose an end-to-end model that is well-performed on the given
task as the teacher and further distill the knowledge of the teacher into the
invoked visual sub-modules step-by-step based on the execution flow of the
VisualProg-generated programs. In this way, our method is capable of
facilitating the fine-tuning of the non-differentiable VisualProg frameworks
effectively. Extensive and comprehensive experimental evaluations demonstrate
that our method can achieve a substantial performance improvement of
VisualProg, and outperforms all the compared state-of-the-art methods by large
margins. Furthermore, to provide valuable process supervision for the GQA task,
we construct a large-scale dataset by utilizing the distillation process of our
method.
- Abstract(参考訳): 大きな言語モデルに基づいた解釈可能で普遍的なニューロシンボリックパラダイムとして、ビジュアルプログラミング(visualprog)はトレーニングなしで構成的な視覚的タスクを実行することができるが、そのパフォーマンスはタスク固有の教師付き学習モデルよりも著しく劣る。
実用性を高めるために、特定のタスクにおけるVisualProgのパフォーマンスを改善する必要がある。
しかし、VisualProgの非差別性は、さらなる改善を達成するために特定のタスクに微調整戦略を採用する可能性を制限する。
解析の結果、VisualProgの実行における重要なパフォーマンス問題は、対応するビジュアルサブタスクステップのサブモジュールによるエラーに起因することがわかった。
そこで本稿では,分離した視覚サブタスク上でのVisualProgサブモジュールの性能を最適化するため,プロセス知識を補足して蒸留する方法である ``VisualProg Distiller を提案する。
具体的には、教師として与えられたタスクによく適合するエンドツーエンドモデルを選択し、さらにVisualProg生成プログラムの実行フローに基づいて、実行された視覚サブモジュールに教師の知識を抽出する。
このようにして、本手法は、微分不可能なVisualProgフレームワークの微調整を効果的に行うことができる。
広範かつ包括的な実験的評価により,本手法はVisualProgの大幅な性能向上を実現し,比較した最先端手法を大きなマージンで上回った。
さらに,本手法の蒸留プロセスを利用して大規模データセットを構築することにより,GQAタスクに有用なプロセス管理を実現する。
関連論文リスト
- ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning [26.21049702284394]
大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。
タスク特化モデル(TSM)を統合することで、VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。
論文 参考訳(メタデータ) (2024-10-09T01:24:04Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。