論文の概要: Unified Multimodal Model with Unlikelihood Training for Visual Dialog
- arxiv url: http://arxiv.org/abs/2211.13235v1
- Date: Wed, 23 Nov 2022 13:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:23:35.159289
- Title: Unified Multimodal Model with Unlikelihood Training for Visual Dialog
- Title(参考訳): 視覚対話のための不一致訓練を用いた統一マルチモーダルモデル
- Authors: Zihao Wang, Junli Wang, and Changjun Jiang
- Abstract要約: 我々はUniMM-ULという名前のUnLikelihood Trainingを用いたUnified Multimodal Modelを提案する。
我々のモデルは、VelBERTを解答差別のみをサポートするものから、解答差別と解答生成の両方をシームレスに保持するものまで拡張する。
また,本モデルでは,単一モデルとアンサンブル設定の両方において,最先端技術による識別結果に匹敵する結果が得られる。
- 参考スコア(独自算出の注目度): 16.228238684046282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of visual dialog requires a multimodal chatbot to answer sequential
questions from humans about image content. Prior work performs the standard
likelihood training for answer generation on the positive instances (involving
correct answers). However, the likelihood objective often leads to frequent and
dull outputs and fails to exploit the useful knowledge from negative instances
(involving incorrect answers). In this paper, we propose a Unified Multimodal
Model with UnLikelihood Training, named UniMM-UL, to tackle this problem.
First, to improve visual dialog understanding and generation by multi-task
learning, our model extends ViLBERT from only supporting answer discrimination
to holding both answer discrimination and answer generation seamlessly by
different attention masks. Specifically, in order to make the original
discriminative model compatible with answer generation, we design novel
generative attention masks to implement the autoregressive Masked Language
Modeling (autoregressive MLM) task. And to attenuate the adverse effects of the
likelihood objective, we exploit unlikelihood training on negative instances to
make the model less likely to generate incorrect answers. Then, to utilize
dense annotations, we adopt different fine-tuning methods for both generating
and discriminating answers, rather than just for discriminating answers as in
the prior work. Finally, on the VisDial dataset, our model achieves the best
generative results (69.23 NDCG score). And our model also yields comparable
discriminative results with the state-of-the-art in both single-model and
ensemble settings (75.92 and 76.17 NDCG scores).
- Abstract(参考訳): ビジュアルダイアログのタスクは、画像コンテンツに関する人間からのシーケンシャルな質問に答えるマルチモーダルチャットボットを必要とする。
事前の作業は、正のインスタンス(正しい回答を含む)で回答生成のための標準的可能性トレーニングを実行する。
しかし、可能性の目的はしばしば頻繁で鈍いアウトプットをもたらし、(誤った答えを伴う)負のインスタンスから有用な知識を活用できない。
本論文では,UniMM-ULと呼ばれるUn Likelihood Trainingを用いた統一マルチモーダルモデルを提案する。
まず,マルチタスク学習による視覚的対話の理解と生成を改善するため,VLBERTは回答識別のみをサポートするものから,異なる注目マスクによる回答識別と回答生成をシームレスに行うものへと拡張する。
具体的には, 自己回帰型マスク型言語モデル(autoregressive mlm)タスクを実装するために, 既存の識別モデルと回答生成の互換性を持たせるために, 新たな生成的注意マスクを設計した。
また, 確率目標の悪影響を軽減するために, 負の事例に対する違和感訓練を利用して, モデルが誤答を生じにくくする。
そこで, 密集アノテーションを活用するために, 先行研究のように回答を識別するだけでなく, 回答の生成と識別に異なる微調整手法を採用する。
最後に、VisDialデータセットを用いて、最適な生成結果(69.23 NDCGスコア)を得る。
また,シングルモデルとアンサンブルモデルでは75.92点と76.17点の両方において,最先端と同等の判別結果が得られる。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - NegMerge: Consensual Weight Negation for Strong Machine Unlearning [21.081262106431506]
機械学習は、モデルから特定の知識を選択的に除去することを目的としている。
現在の手法は、左折セットの微調整モデルに依存し、タスクベクトルを生成し、元のモデルからそれを減算する。
1つのモデルを選択するのではなく、与えられた細調整されたモデルをすべて活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T00:50:54Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。