論文の概要: Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language
Tasks
- arxiv url: http://arxiv.org/abs/2308.09033v2
- Date: Tue, 19 Sep 2023 09:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 19:11:23.816372
- Title: Uni-NLX: Unifying Textual Explanations for Vision and Vision-Language
Tasks
- Title(参考訳): Uni-NLX:視覚・視覚言語タスクのためのテキスト記述の統合
- Authors: Fawaz Sammani, Nikos Deligiannis
- Abstract要約: 自然言語説明(NLE)は、人間に優しい自然文によるモデルの予測を補うことを目的としている。
我々は,すべてのNLEタスクを単一かつコンパクトなマルチタスクモデルに統合する統一フレームワークUni-NLXを提案する。
1Mの複合NLEサンプルをトレーニングすることにより、単一の統一フレームワークが同時に7つのNLEタスクを実行することができる。
- 参考スコア(独自算出の注目度): 23.74374150111141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Explanations (NLE) aim at supplementing the prediction of a
model with human-friendly natural text. Existing NLE approaches involve
training separate models for each downstream task. In this work, we propose
Uni-NLX, a unified framework that consolidates all NLE tasks into a single and
compact multi-task model using a unified training objective of text generation.
Additionally, we introduce two new NLE datasets: 1) ImageNetX, a dataset of
144K samples for explaining ImageNet categories, and 2) VQA-ParaX, a dataset of
123K samples for explaining the task of Visual Question Answering (VQA). Both
datasets are derived leveraging large language models (LLMs). By training on
the 1M combined NLE samples, our single unified framework is capable of
simultaneously performing seven NLE tasks including VQA, visual recognition and
visual reasoning tasks with 7X fewer parameters, demonstrating comparable
performance to the independent task-specific models in previous approaches, and
in certain tasks even outperforming them. Code is at
https://github.com/fawazsammani/uni-nlx
- Abstract(参考訳): 自然言語説明(NLE)は、人間に優しい自然文によるモデルの予測を補うことを目的としている。
既存のNLEアプローチでは、ダウンストリームタスク毎に別々のモデルをトレーニングする。
本研究では,テキスト生成の統一的学習目標を用いて,すべてのNLEタスクを単一かつコンパクトなマルチタスクモデルに統合する統一フレームワークUni-NLXを提案する。
さらに、2つの新しいNLEデータセットを紹介します。
1)imagenetx、imagenetのカテゴリを説明するための144kサンプルのデータセット、
2) VQA-ParaXは,視覚質問応答(VQA)の課題を説明するための123Kサンプルのデータセットである。
両方のデータセットは、大きな言語モデル(LLM)を利用する。
1M組み合わせのNLEサンプルをトレーニングすることにより、VQA、視覚認識、視覚推論タスクを含む7つのNLEタスクを7倍のパラメータで同時に実行し、従来の手法で独立したタスク固有モデルに匹敵する性能を示し、特定のタスクでさらに優れています。
コードはhttps://github.com/fawazsammani/uni-nlxにある。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文 参考訳(メタデータ) (2022-03-09T22:57:15Z) - Quantifying the Task-Specific Information in Text-Based Classifications [20.148222318025528]
データセットのショートカットは、分類タスクの*task-specific information*(TSI)に寄与しない。
本稿では,データセットの分類にタスク固有の情報がどの程度必要かを検討する。
このフレームワークはデータセット間の比較を可能にし、"一連のショートカット機能"とは別に、Multi-NLIタスクの各サンプルの分類には、Quora Question Pairよりも約0.4ナットのTSIが含まれている、と述べている。
論文 参考訳(メタデータ) (2021-10-17T21:54:38Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Looking Beyond Sentence-Level Natural Language Inference for Downstream
Tasks [15.624486319943015]
近年,自然言語推論(NLI)タスクが注目されている。
本稿では,この不満足な約束を,質問応答(QA)とテキスト要約という2つの下流タスクのレンズから検討する。
我々は、NLIデータセットとこれらの下流タスクの主な違いが前提の長さに関係していると推測する。
論文 参考訳(メタデータ) (2020-09-18T21:44:35Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。