論文の概要: Unifying Vision-and-Language Tasks via Text Generation
- arxiv url: http://arxiv.org/abs/2102.02779v1
- Date: Thu, 4 Feb 2021 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:51:33.511428
- Title: Unifying Vision-and-Language Tasks via Text Generation
- Title(参考訳): テキスト生成による視覚言語タスクの統合
- Authors: Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal
- Abstract要約: 一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
- 参考スコア(独自算出の注目度): 81.3910771082967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for vision-and-language learning typically require designing
task-specific architectures and objectives for each task. For example, a
multi-label answer classifier for visual question answering, a region scorer
for referring expression comprehension, and a language decoder for image
captioning, etc. To alleviate these hassles, in this work, we propose a unified
framework that learns different tasks in a single architecture with the same
language modeling objective, i.e., multimodal conditional text generation,
where our models learn to generate labels in text based on the visual and
textual inputs. On 7 popular vision-and-language benchmarks, including visual
question answering, referring expression comprehension, visual commonsense
reasoning, most of which have been previously modeled as discriminative tasks,
our generative approach (with a single unified architecture) reaches comparable
performance to recent task-specific state-of-the-art vision-and-language
models. Moreover, our generative approach shows better generalization ability
on answering questions that have rare answers. In addition, we show that our
framework allows multi-task learning in a single architecture with a single set
of parameters, which achieves similar performance to separately optimized
single-task models. Our code will be publicly available at:
https://github.com/j-min/VL-T5
- Abstract(参考訳): 既存の視覚・言語学習の方法は、通常、タスク固有のアーキテクチャと各タスクの目的を設計する必要がある。
例えば、視覚的質問応答のためのマルチラベル回答分類器、表現理解を参照するための領域スコアラー、および画像キャプションのための言語デコーダなどである。
これらの問題を軽減するため,本稿では,視覚的およびテキスト的入力に基づくテキストのラベル生成を学習するマルチモーダル条件付きテキスト生成という,同一言語モデリング目的の単一アーキテクチャで異なるタスクを学習する統一的なフレームワークを提案する。
視覚質問応答、表現理解の参照、視覚常識推論を含む7つの一般的な視覚言語ベンチマークにおいて、私たちの生成的アプローチ(単一の統一アーキテクチャ)は、最近のタスク固有の視覚言語モデルに匹敵するパフォーマンスに達している。
さらに,我々の生成的アプローチは,稀な回答を持つ質問に対して,より優れた一般化能力を示す。
さらに,本フレームワークでは,一組のパラメータを持つ単一アーキテクチャでマルチタスク学習が可能であり,個別に最適化された単一タスクモデルと同じような性能を実現する。
コードはhttps://github.com/j-min/VL-T5で公開されます。
関連論文リスト
- MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.12025963907317]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文 参考訳(メタデータ) (2022-06-17T17:53:47Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - All-in-One Image-Grounded Conversational Agents [31.28974522911758]
我々は、最先端のTransformerとResNeXtモジュールを結合したアーキテクチャを、新しい注意型マルチモーダルモジュールとして設計する。
モデルのコンポーネントを徹底的に分析し、あるタスク、あるタスク、またはすべてのタスクでトレーニングを行う際の性能を伝達する。
論文 参考訳(メタデータ) (2019-12-28T03:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。