論文の概要: Understanding Task Transfer in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.18787v1
- Date: Mon, 24 Nov 2025 05:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.037374
- Title: Understanding Task Transfer in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるタスク伝達の理解
- Authors: Bhuvan Sachdeva, Karan Uppal, Abhinav Java, Vineeth N. Balasubramanian,
- Abstract要約: あるタスクの微調整は、他のタスクのパフォーマンスに影響を与え、タスク固有の微調整を困難にします。
これらの効果を定量化するために, 透過ギャップ係数 (Perfection Gap Factor, PGF) を導入する。
本分析では, 肯定的, 否定的な伝達パターンを明らかにし, 相互に影響を及ぼすタスク群を同定し, 伝達行動に基づいてタスクをペルソナに整理する。
- 参考スコア(独自算出の注目度): 27.72513995438293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) perform well on multimodal benchmarks but lag behind humans and specialized models on visual perception tasks like depth estimation or object counting. Finetuning on one task can unpredictably affect performance on others, making task-specific finetuning challenging. In this paper, we address this challenge through a systematic study of task transferability. We examine how finetuning a VLM on one perception task affects its zero-shot performance on others. To quantify these effects, we introduce Perfection Gap Factor (PGF), a metric that captures both the breadth and magnitude of transfer. Using three open-weight VLMs evaluated across 13 perception tasks, we construct a task-transfer graph that reveals previously unobserved relationships among perception tasks. Our analysis uncovers patterns of positive and negative transfer, identifies groups of tasks that mutually influence each other, organizes tasks into personas based on their transfer behavior and demonstrates how PGF can guide data selection for more efficient training. These findings highlight both opportunities for positive transfer and risks of negative interference, offering actionable guidance for advancing VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルなベンチマークではうまく機能するが、人間や、深度推定やオブジェクトカウントといった視覚的知覚タスクに関する特殊なモデルには遅れがある。
あるタスクの微調整は、他のタスクのパフォーマンスに予測できない影響を与え、タスク固有の微調整を難しくする。
本稿では,タスク伝達可能性の体系的研究を通じて,この問題に対処する。
一方の知覚課題におけるVLMの微調整が他者のゼロショット性能に与える影響について検討する。
これらの効果を定量化するために, 透過ギャップ係数 (Perfection Gap Factor, PGF) を導入する。
13の知覚タスクで評価された3つのオープンウェイトVLMを用いて、これまで観測されていなかった知覚タスク間の関係を明らかにするタスク・トランスファーグラフを構築する。
本分析は, 正負の伝達パターンを明らかにし, 相互に影響を及ぼすタスク群を同定し, 伝達行動に基づいてタスクをペルソナに整理し, PGFがより効率的なトレーニングのためにデータ選択をガイドする方法を実証する。
これらの知見は、VLMの進行に有効なガイダンスを提供することにより、正の移行と負の干渉のリスクの両方を浮き彫りにする。
関連論文リスト
- Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。