論文の概要: Designing Multimodal Datasets for NLP Challenges
- arxiv url: http://arxiv.org/abs/2105.05999v1
- Date: Wed, 12 May 2021 23:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:01:07.740926
- Title: Designing Multimodal Datasets for NLP Challenges
- Title(参考訳): NLPチャレンジのためのマルチモーダルデータセットの設計
- Authors: James Pustejovsky, Eben Holderness, Jingxuan Tu, Parker Glenn,
Kyeongmin Rim, Kelley Lynch, Richard Brutti
- Abstract要約: 会話や推論において人間が持つ言語能力や認知能力を反映した課題や課題を特定する。
マルチモーダルレシピコレクションに対するコンピテンスベースの理解をテストするために設計された診断データセットであるRecipe-to-Video Questions (R2VQ)について述べる。
- 参考スコア(独自算出の注目度): 5.874143210792986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we argue that the design and development of multimodal
datasets for natural language processing (NLP) challenges should be enhanced in
two significant respects: to more broadly represent commonsense semantic
inferences; and to better reflect the dynamics of actions and events, through a
substantive alignment of textual and visual information. We identify challenges
and tasks that are reflective of linguistic and cognitive competencies that
humans have when speaking and reasoning, rather than merely the performance of
systems on isolated tasks. We introduce the distinction between challenge-based
tasks and competence-based performance, and describe a diagnostic dataset,
Recipe-to-Video Questions (R2VQ), designed for testing competence-based
comprehension over a multimodal recipe collection (http://r2vq.org/). The
corpus contains detailed annotation supporting such inferencing tasks and
facilitating a rich set of question families that we use to evaluate NLP
systems.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)の課題に対するマルチモーダルデータセットの設計と開発を,より広義の常識的推論を表現し,テキスト情報と視覚情報の静的アライメントを通じて,行動や事象のダイナミクスをよりよく反映する,という2つの点で拡張すべきである,と論じる。
我々は,コミュニケーションや推論において人間が持つ言語的・認知的能力を反映した課題や課題を,単に孤立したタスクにおけるシステムのパフォーマンスではなく,特定する。
課題ベースタスクと能力ベースパフォーマンスの区別を導入し、マルチモーダルレシピコレクション(http://r2vq.org/)上での能力ベース理解をテストするために設計された診断データセットRecipe-to-Video Questions (R2VQ)について述べる。
コーパスには、このような推論タスクをサポートし、NLPシステムの評価に使用する質問ファミリーの豊富なセットを支援する詳細なアノテーションが含まれている。
関連論文リスト
- A Review of Hybrid and Ensemble in Deep Learning for Natural Language
Processing [0.5919433278490629]
レビューでは、各タスクを体系的に導入し、キーアーキテクチャをリカレントニューラルネットワーク(RNN)からBERTのようなトランスフォーマーベースのモデルに記述する。
アンサンブル技術の適用性を強調し、様々なNLPアプリケーションを強化する能力を強調している。
計算オーバーヘッド、オーバーフィッティング、モデル解釈複雑性などの実装上の課題に対処する。
論文 参考訳(メタデータ) (2023-12-09T14:49:34Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative
Pretrained Language Model [52.209876738711664]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - Cross-Modality Relevance for Reasoning on Language and Vision [22.41781462637622]
本研究は,視覚的質問応答(VQA)や視覚的推論(NLVR)などの下流課題に対する,言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督の下で,様々な入力モダリティのコンポーネント間の関連性表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
論文 参考訳(メタデータ) (2020-05-12T20:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。