論文の概要: A Continual Learning Paradigm for Non-differentiable Visual Programming
Frameworks on Visual Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2309.09809v2
- Date: Thu, 30 Nov 2023 09:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:13:09.903062
- Title: A Continual Learning Paradigm for Non-differentiable Visual Programming
Frameworks on Visual Reasoning Tasks
- Title(参考訳): 視覚的推論タスクにおける非微分可能ビジュアルプログラミングフレームワークの連続学習パラダイム
- Authors: Wentao Wan, Nan Kang, Zeqing Wang, Zhuojie Yang, Liang Lin, Keze Wang
- Abstract要約: 様々な視覚的推論タスクにまたがって,VisProgの継続的学習パラダイムを提案する。
我々のCLVPは、よく訓練されたタスク固有モデルの視覚的サブモジュールに、段階的に、そして、アンチフォッゲッティングな方法で蒸留する。
- 参考スコア(独自算出の注目度): 51.053901491986025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the visual programming framework (VisProg) has emerged as a
significant framework for executing compositional visual tasks due to its
interpretability and flexibility. However, the performance of VisProg on
specific Visual Reasoning (VR) tasks is markedly inferior compared to
well-trained task-specific models since its employed visual sub-modules have
limited generalization capabilities. Due to the non-differentiability of
VisProg, it is quite challenging to improve these visual sub-modules within
VisProg for the specific VR task while maintaining their generalizability on
the un-seen tasks. Attempt to overcome these difficulties, we propose CLVP, a
Continuous Learning paradigm for VisProg across various visual reasoning tasks.
Specifically, our CLVP distills the capabilities of well-trained task-specific
models into the visual sub-modules in a stepwise and anti-forgetting manner.
This can continually improve the performance of VisProg on multiple visual
tasks while preserving the flexibility of VisProg. Extensive and comprehensive
experimental results demonstrate that our CLVP obtains significant performance
gains on specific VR benchmarks, i.e., GQA (+1.4%) and NLVRv2 (+5.6%), compared
to the VisProg baseline, and also maintains a promising generalizability for VR
on un-seen and previous learned tasks.
- Abstract(参考訳): 最近、ビジュアルプログラミングフレームワーク(VisProg)が、その解釈性と柔軟性のために構成的な視覚タスクを実行するための重要なフレームワークとして登場した。
しかし、視覚的サブモジュールが限定的な一般化能力を持つため、特定の視覚的推論(VR)タスクにおけるVisProgの性能は、よく訓練されたタスク固有モデルに比べて著しく劣っている。
VisProgの非微分性のため、特定のVRタスクのために、VisProg内の視覚的なサブモジュールを改善することは極めて困難である。
これらの課題を克服しようと、さまざまな視覚的推論タスクにわたるVisProgの継続的学習パラダイムであるCLVPを提案する。
特にclvpは、よく訓練されたタスク固有のモデルの機能を段階的かつ反フォーゲティング的な方法でビジュアルサブモジュールに絞り込みます。
これにより、VisProgの柔軟性を維持しながら、複数の視覚タスクにおけるVisProgのパフォーマンスを継続的に改善することができる。
広範囲で包括的な実験結果から,本clvp は visprog ベースラインと比較して,gqa (+1.4%) と nlvrv2 (+5.6%) といった特定の vr ベンチマークで有意な性能向上を達成でき,また,未学習および過去の学習タスクにおいて vr の有望な一般化性を維持している。
関連論文リスト
- ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning [26.21049702284394]
大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。
タスク特化モデル(TSM)を統合することで、VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。
論文 参考訳(メタデータ) (2024-10-09T01:24:04Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。