Fugu-MT 論文翻訳(概要): VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual Programming Frameworks

論文の概要: VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual Programming Frameworks

arxiv url: http://arxiv.org/abs/2309.09809v1
Date: Mon, 18 Sep 2023 14:28:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 13:00:40.657214
Title: VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual Programming Frameworks
Title（参考訳）: VisualProg Distiller: 微調整不要なビジュアルプログラミングフレームワークを学ぶ
Authors: Wentao Wan, Zeqing Wang, Nan Kang, Keze Wang, Zhiyu Shen, Liang Lin
Abstract要約: ビジュアルプログラミング(VisualProg)は、学習なしで構成的な視覚タスクを実行することができるが、その性能はタスク固有の教師付き学習モデルに比べて著しく劣る。分離された視覚サブタスク上で,各VisualProgサブモジュールの性能を最適化するために,プロセス知識を補足し,蒸留する方法であるVisualProg Distillerを提案する。提案手法は,VisualProgの大幅な性能向上を実現し,比較対象の最先端手法を大きなマージンで上回っている。
参考スコア（独自算出の注目度）: 51.08885395763549
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As an interpretable and universal neuro-symbolic paradigm based on Large Language Models, visual programming (VisualProg) can execute compositional visual tasks without training, but its performance is markedly inferior compared to task-specific supervised learning models. To increase its practicality, the performance of VisualProg on specific tasks needs to be improved. However, the non-differentiability of VisualProg limits the possibility of employing the fine-tuning strategy on specific tasks to achieve further improvements. In our analysis, we discovered that significant performance issues in VisualProg's execution originated from errors made by the sub-modules at corresponding visual sub-task steps. To address this, we propose ``VisualProg Distiller", a method of supplementing and distilling process knowledge to optimize the performance of each VisualProg sub-module on decoupled visual sub-tasks, thus enhancing the overall task performance. Specifically, we choose an end-to-end model that is well-performed on the given task as the teacher and further distill the knowledge of the teacher into the invoked visual sub-modules step-by-step based on the execution flow of the VisualProg-generated programs. In this way, our method is capable of facilitating the fine-tuning of the non-differentiable VisualProg frameworks effectively. Extensive and comprehensive experimental evaluations demonstrate that our method can achieve a substantial performance improvement of VisualProg, and outperforms all the compared state-of-the-art methods by large margins. Furthermore, to provide valuable process supervision for the GQA task, we construct a large-scale dataset by utilizing the distillation process of our method.
Abstract（参考訳）: 大きな言語モデルに基づいた解釈可能で普遍的なニューロシンボリックパラダイムとして、ビジュアルプログラミング(visualprog)はトレーニングなしで構成的な視覚的タスクを実行することができるが、そのパフォーマンスはタスク固有の教師付き学習モデルよりも著しく劣る。実用性を高めるために、特定のタスクにおけるVisualProgのパフォーマンスを改善する必要がある。しかし、VisualProgの非差別性は、さらなる改善を達成するために特定のタスクに微調整戦略を採用する可能性を制限する。解析の結果、VisualProgの実行における重要なパフォーマンス問題は、対応するビジュアルサブタスクステップのサブモジュールによるエラーに起因することがわかった。そこで本稿では,分離した視覚サブタスク上でのVisualProgサブモジュールの性能を最適化するため,プロセス知識を補足して蒸留する方法である ``VisualProg Distiller を提案する。具体的には、教師として与えられたタスクによく適合するエンドツーエンドモデルを選択し、さらにVisualProg生成プログラムの実行フローに基づいて、実行された視覚サブモジュールに教師の知識を抽出する。このようにして、本手法は、微分不可能なVisualProgフレームワークの微調整を効果的に行うことができる。広範かつ包括的な実験的評価により,本手法はVisualProgの大幅な性能向上を実現し,比較した最先端手法を大きなマージンで上回った。さらに,本手法の蒸留プロセスを利用して大規模データセットを構築することにより,GQAタスクに有用なプロセス管理を実現する。

関連論文リスト

Test-Time Visual In-Context Tuning [85.62916644835902]
ビジュアル・イン・コンテキスト・ラーニング(VICL)は、いくつかのプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。効果はあるものの、既存のVICLパラダイムは分布シフトの下での一般化性が劣っている。 VICT(Test-time Visual In-Context Tuning)は、1つのテストサンプルでVICLモデルをオンザフライで適用できる手法である。
論文参考訳（メタデータ） (2025-03-27T17:59:52Z)
ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。 ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文参考訳（メタデータ） (2024-11-20T11:19:22Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning [26.21049702284394]
大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。タスク特化モデル(TSM)を統合することで、VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。
論文参考訳（メタデータ） (2024-10-09T01:24:04Z)
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文参考訳（メタデータ） (2024-09-21T18:30:17Z)
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文参考訳（メタデータ） (2024-02-18T19:38:44Z)
Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文参考訳（メタデータ） (2023-12-27T14:54:37Z)
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。 2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文参考訳（メタデータ） (2023-12-19T18:53:01Z)
Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。 PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文参考訳（メタデータ） (2023-10-09T04:16:35Z)
Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文参考訳（メタデータ） (2023-09-16T07:30:52Z)
One does not fit all! On the Complementarity of Vision Encoders for Vision and Language Tasks [59.49639580525051]
マルチモーダルモデルはビジョン・アンド・ランゲージ(V+L)タスクの解決を目的としている。現在の研究は、テキスタイルの事前訓練されたVEが汎用エンコーダとして機能すると仮定している。本研究では,異なるVEに格納されている情報が相補的であるかどうかを,分析に焦点をあてる。
論文参考訳（メタデータ） (2022-10-12T16:31:39Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。