論文の概要: Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2303.16133v2
- Date: Wed, 21 Feb 2024 22:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:09:55.421394
- Title: Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models
- Title(参考訳): 統合視覚言語モデルにおけるクロスタスク不整合の抽出と対応
- Authors: Adyasha Maharana, Amita Kamath, Christopher Clark, Mohit Bansal,
Aniruddha Kembhavi
- Abstract要約: 一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
- 参考スコア(独自算出の注目度): 80.23791222509644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As general purpose vision models get increasingly effective at a wide set of
tasks, it is imperative that they be consistent across the tasks they support.
Inconsistent AI models are considered brittle and untrustworthy by human users
and are more challenging to incorporate into larger systems that take
dependencies on their outputs. Measuring consistency between very heterogeneous
tasks that might include outputs in different modalities is challenging since
it is difficult to determine if the predictions are consistent with one
another. As a solution, we introduce a benchmark dataset, CocoCon, where we
create contrast sets by modifying test instances for multiple tasks in small
but semantically meaningful ways to change the gold label and outline metrics
for measuring if a model is consistent by ranking the original and perturbed
instances across tasks. We find that state-of-the-art vision-language models
suffer from a surprisingly high degree of inconsistent behavior across tasks,
especially for more heterogeneous tasks. To alleviate this issue, we propose a
rank correlation-based auxiliary training objective, computed over large
automatically created cross-task contrast sets, that improves the multi-task
consistency of large unified models while retaining their original accuracy on
downstream tasks.
- Abstract(参考訳): 汎用視覚モデルが幅広いタスクでより効果的になるにつれ、それらをサポートするタスク間で一貫性を持つことが不可欠である。
一貫性のないAIモデルは、人間のユーザによって不安定で信頼できないと考えられており、アウトプットに依存する大規模なシステムに組み込むことがより困難である。
異なるモダリティのアウトプットを含む非常に異質なタスク間の一貫性を測定することは、予測が互いに一貫性があるかどうかを判断することが難しいため、難しい。
これは、複数のタスクのテストインスタンスを小さくて意味的に意味のある方法で変更して、ゴールドラベルを変更し、モデルが一貫性があるかどうかを測定するためのアウトラインメトリクスを、タスク間で元のインスタンスと摂動インスタンスをランク付けすることで、コントラストセットを作成するものです。
最先端のビジョン言語モデルは、特に異種タスクにおいて、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
この問題を軽減するため,大規模なクロスタスクコントラストセット上で計算されたランク相関に基づく補助訓練目標を提案し,下流タスクにおける元の精度を維持しつつ,大規模な統一モデルのマルチタスク一貫性を向上させる。
関連論文リスト
- Improving General Text Embedding Model: Tackling Task Conflict and Data Imbalance through Model Merging [33.23758947497205]
高度な埋め込みモデルは、通常、大規模マルチタスクデータと複数のタスクをまたいだ共同トレーニングを用いて開発される。
これらの課題を克服するために、独立に訓練されたモデルを組み合わせて勾配の衝突を緩和し、データ分散のバランスをとるモデルマージングについて検討する。
本稿では,勾配降下を用いたタスクベクトル空間内の最適モデル組合せを効率的に探索する新たな手法であるSelf Positioningを提案する。
論文 参考訳(メタデータ) (2024-10-19T08:39:21Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。