論文の概要: Designing Multimodal Datasets for NLP Challenges
- arxiv url: http://arxiv.org/abs/2105.05999v1
- Date: Wed, 12 May 2021 23:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:01:07.740926
- Title: Designing Multimodal Datasets for NLP Challenges
- Title(参考訳): NLPチャレンジのためのマルチモーダルデータセットの設計
- Authors: James Pustejovsky, Eben Holderness, Jingxuan Tu, Parker Glenn,
Kyeongmin Rim, Kelley Lynch, Richard Brutti
- Abstract要約: 会話や推論において人間が持つ言語能力や認知能力を反映した課題や課題を特定する。
マルチモーダルレシピコレクションに対するコンピテンスベースの理解をテストするために設計された診断データセットであるRecipe-to-Video Questions (R2VQ)について述べる。
- 参考スコア(独自算出の注目度): 5.874143210792986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we argue that the design and development of multimodal
datasets for natural language processing (NLP) challenges should be enhanced in
two significant respects: to more broadly represent commonsense semantic
inferences; and to better reflect the dynamics of actions and events, through a
substantive alignment of textual and visual information. We identify challenges
and tasks that are reflective of linguistic and cognitive competencies that
humans have when speaking and reasoning, rather than merely the performance of
systems on isolated tasks. We introduce the distinction between challenge-based
tasks and competence-based performance, and describe a diagnostic dataset,
Recipe-to-Video Questions (R2VQ), designed for testing competence-based
comprehension over a multimodal recipe collection (http://r2vq.org/). The
corpus contains detailed annotation supporting such inferencing tasks and
facilitating a rich set of question families that we use to evaluate NLP
systems.
- Abstract(参考訳): 本稿では,自然言語処理(NLP)の課題に対するマルチモーダルデータセットの設計と開発を,より広義の常識的推論を表現し,テキスト情報と視覚情報の静的アライメントを通じて,行動や事象のダイナミクスをよりよく反映する,という2つの点で拡張すべきである,と論じる。
我々は,コミュニケーションや推論において人間が持つ言語的・認知的能力を反映した課題や課題を,単に孤立したタスクにおけるシステムのパフォーマンスではなく,特定する。
課題ベースタスクと能力ベースパフォーマンスの区別を導入し、マルチモーダルレシピコレクション(http://r2vq.org/)上での能力ベース理解をテストするために設計された診断データセットRecipe-to-Video Questions (R2VQ)について述べる。
コーパスには、このような推論タスクをサポートし、NLPシステムの評価に使用する質問ファミリーの豊富なセットを支援する詳細なアノテーションが含まれている。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - A Review of Hybrid and Ensemble in Deep Learning for Natural Language Processing [0.5266869303483376]
レビューでは、各タスクを体系的に導入し、キーアーキテクチャをリカレントニューラルネットワーク(RNN)からBERTのようなトランスフォーマーベースのモデルに記述する。
アンサンブル技術の適用性を強調し、様々なNLPアプリケーションを強化する能力を強調している。
計算オーバーヘッド、オーバーフィッティング、モデル解釈複雑性などの実装上の課題に対処する。
論文 参考訳(メタデータ) (2023-12-09T14:49:34Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。