論文の概要: Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2303.16133v2
- Date: Wed, 21 Feb 2024 22:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:09:55.421394
- Title: Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models
- Title(参考訳): 統合視覚言語モデルにおけるクロスタスク不整合の抽出と対応
- Authors: Adyasha Maharana, Amita Kamath, Christopher Clark, Mohit Bansal,
Aniruddha Kembhavi
- Abstract要約: 一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
- 参考スコア(独自算出の注目度): 80.23791222509644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As general purpose vision models get increasingly effective at a wide set of
tasks, it is imperative that they be consistent across the tasks they support.
Inconsistent AI models are considered brittle and untrustworthy by human users
and are more challenging to incorporate into larger systems that take
dependencies on their outputs. Measuring consistency between very heterogeneous
tasks that might include outputs in different modalities is challenging since
it is difficult to determine if the predictions are consistent with one
another. As a solution, we introduce a benchmark dataset, CocoCon, where we
create contrast sets by modifying test instances for multiple tasks in small
but semantically meaningful ways to change the gold label and outline metrics
for measuring if a model is consistent by ranking the original and perturbed
instances across tasks. We find that state-of-the-art vision-language models
suffer from a surprisingly high degree of inconsistent behavior across tasks,
especially for more heterogeneous tasks. To alleviate this issue, we propose a
rank correlation-based auxiliary training objective, computed over large
automatically created cross-task contrast sets, that improves the multi-task
consistency of large unified models while retaining their original accuracy on
downstream tasks.
- Abstract(参考訳): 汎用視覚モデルが幅広いタスクでより効果的になるにつれ、それらをサポートするタスク間で一貫性を持つことが不可欠である。
一貫性のないAIモデルは、人間のユーザによって不安定で信頼できないと考えられており、アウトプットに依存する大規模なシステムに組み込むことがより困難である。
異なるモダリティのアウトプットを含む非常に異質なタスク間の一貫性を測定することは、予測が互いに一貫性があるかどうかを判断することが難しいため、難しい。
これは、複数のタスクのテストインスタンスを小さくて意味的に意味のある方法で変更して、ゴールドラベルを変更し、モデルが一貫性があるかどうかを測定するためのアウトラインメトリクスを、タスク間で元のインスタンスと摂動インスタンスをランク付けすることで、コントラストセットを作成するものです。
最先端のビジョン言語モデルは、特に異種タスクにおいて、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
この問題を軽減するため,大規模なクロスタスクコントラストセット上で計算されたランク相関に基づく補助訓練目標を提案し,下流タスクにおける元の精度を維持しつつ,大規模な統一モデルのマルチタスク一貫性を向上させる。
関連論文リスト
- Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [74.02034188307857]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存の手法は必然的にタスク固有の情報を破棄し、競合の原因となっているが、パフォーマンスには不可欠である。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Tint Your Models Task-wise for Improved Multi-task Model Merging [17.496018757317824]
本稿では,各タスクに1つのタスク固有のレイヤをトレーニング可能な調整として導入するテストタイムアプローチであるModel Tintingを提案する。
提案手法は, 統合係数とタスク固有層を併用することにより, タスク競合を最小限のコストで効果的に軽減する。
本手法は,コンピュータビジョンと自然言語処理の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-26T07:42:06Z) - Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics [37.86612817818566]
CLIPや大規模マルチモーダルモデル(LMM)などの汎用視覚言語モデルは、ゼロショット知覚メトリクスとして適用することができる。
提案するUniSim-Benchは、7つのマルチモーダルな知覚的類似性タスクと合計25のデータセットを包含するベンチマークである。
我々の評価では、汎用モデルは平均的に合理的に機能するが、個々のタスクの特化モデルに遅れが生じることが多い。
論文 参考訳(メタデータ) (2024-12-13T22:38:09Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。