論文の概要: Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level
Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2212.04231v2
- Date: Wed, 29 Mar 2023 08:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:17:40.856065
- Title: Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level
Natural Language Explanations
- Title(参考訳): 地層レベル自然言語説明のためのマルチタスク事前学習の力の調和
- Authors: Bj\"orn Pl\"uster, Jakob Ambsdorf, Lukas Braach, Jae Hee Lee, Stefan
Wermter
- Abstract要約: 自然言語の説明は、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供することを約束する。
現在のモデルでは、タスクの正確さと説明の妥当性に優れたパフォーマンスを提供するが、様々な問題に悩まされている。
生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用する。
提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者が生成した説明を地上の真実よりも好んで, 最新のモデルよりも優れている。
- 参考スコア(独自算出の注目度): 12.757277574843101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language explanations promise to offer intuitively understandable
explanations of a neural network's decision process in complex vision-language
tasks, as pursued in recent VL-NLE models. While current models offer
impressive performance on task accuracy and explanation plausibility, they
suffer from a range of issues: Some models feature a modular design where the
explanation generation module is poorly integrated with a separate module for
task-answer prediction, employ backbone models trained on limited sets of
tasks, or incorporate ad hoc solutions to increase performance on single
datasets. We propose to evade these limitations by applying recent advances in
large-scale multi-task pretraining of generative Transformer models to the
problem of VL-NLE tasks. Our approach outperforms recent models by a large
margin, with human annotators preferring the generated explanations over the
ground truth in two out of three evaluated datasets. As a novel challenge in
VL-NLE research, we propose the problem of multi-task VL-NLE and show that
jointly training on multiple tasks can increase the explanation quality. We
discuss the ethical implications of high-quality NLE generation and other
issues in recent VL-NLE research.
- Abstract(参考訳): 自然言語の説明は、最近のVL-NLEモデルで追求されているように、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供する。
いくつかのモデルは、説明生成モジュールがタスク答え予測のために独立したモジュールと十分に統合されていないモジュール、限られたタスクセットでトレーニングされたバックボーンモデル、または単一のデータセットのパフォーマンス向上のためにアドホックソリューションを組み込むモジュール設計を特徴としています。
生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用することにより,これらの制限を回避することを提案する。
提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者は, 基礎的真実よりも生成した説明を優先する。
VL-NLE研究における新たな課題として、マルチタスクVL-NLEの問題を提案し、複数のタスクの協調トレーニングが説明品質を向上させることを示す。
本稿では,近年のVL-NLE研究における高品質なNLE生成の倫理的意義について論じる。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Evaluating the Capabilities of Multi-modal Reasoning Models with
Synthetic Task Data [0.0]
我々は高解像度テキスト・画像生成の進歩を活用し、マルチモーダル推論タスクの評価データを生成するフレームワークを開発する。
このフレームワークを用いて、コンテキスト依存の異常データを生成し、困難なタスクに合成データセットを作成する。
我々は,タスクが抽出可能である一方で,標準的なVQAタスクよりもコンテキスト依存型異常検出タスクでは,モデルが大幅に悪化することを示した。
論文 参考訳(メタデータ) (2023-06-01T20:56:34Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。