Fugu-MT 論文翻訳(概要): Designing Multimodal Datasets for NLP Challenges

論文の概要: Designing Multimodal Datasets for NLP Challenges

arxiv url: http://arxiv.org/abs/2105.05999v1
Date: Wed, 12 May 2021 23:02:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-14 14:01:07.740926
Title: Designing Multimodal Datasets for NLP Challenges
Title（参考訳）: NLPチャレンジのためのマルチモーダルデータセットの設計
Authors: James Pustejovsky, Eben Holderness, Jingxuan Tu, Parker Glenn, Kyeongmin Rim, Kelley Lynch, Richard Brutti
Abstract要約: 会話や推論において人間が持つ言語能力や認知能力を反映した課題や課題を特定する。マルチモーダルレシピコレクションに対するコンピテンスベースの理解をテストするために設計された診断データセットであるRecipe-to-Video Questions (R2VQ)について述べる。
参考スコア（独自算出の注目度）: 5.874143210792986
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we argue that the design and development of multimodal datasets for natural language processing (NLP) challenges should be enhanced in two significant respects: to more broadly represent commonsense semantic inferences; and to better reflect the dynamics of actions and events, through a substantive alignment of textual and visual information. We identify challenges and tasks that are reflective of linguistic and cognitive competencies that humans have when speaking and reasoning, rather than merely the performance of systems on isolated tasks. We introduce the distinction between challenge-based tasks and competence-based performance, and describe a diagnostic dataset, Recipe-to-Video Questions (R2VQ), designed for testing competence-based comprehension over a multimodal recipe collection (http://r2vq.org/). The corpus contains detailed annotation supporting such inferencing tasks and facilitating a rich set of question families that we use to evaluate NLP systems.
Abstract（参考訳）: 本稿では,自然言語処理(NLP)の課題に対するマルチモーダルデータセットの設計と開発を,より広義の常識的推論を表現し,テキスト情報と視覚情報の静的アライメントを通じて,行動や事象のダイナミクスをよりよく反映する,という2つの点で拡張すべきである,と論じる。我々は,コミュニケーションや推論において人間が持つ言語的・認知的能力を反映した課題や課題を,単に孤立したタスクにおけるシステムのパフォーマンスではなく,特定する。課題ベースタスクと能力ベースパフォーマンスの区別を導入し、マルチモーダルレシピコレクション(http://r2vq.org/)上での能力ベース理解をテストするために設計された診断データセットRecipe-to-Video Questions (R2VQ)について述べる。コーパスには、このような推論タスクをサポートし、NLPシステムの評価に使用する質問ファミリーの豊富なセットを支援する詳細なアノテーションが含まれている。

関連論文リスト

Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Explainable and Interpretable Multimodal Large Language Models: A Comprehensive Survey [46.617998833238126]
大規模言語モデル(LLM)とコンピュータビジョン(CV)システムは、自然言語理解と視覚処理の進歩を促進する。これらの技術の収束がマルチモーダルAIの台頭を触媒し、テキスト、ビジョン、オーディオ、ビデオモダリティにまたがるよりリッチでクロスモーダルな理解を可能にした。マルチモーダル大規模言語モデル(MLLM)は、画像テキスト生成、視覚的質問応答、相互モーダル検索といったタスクにおいて印象的な機能を示す強力なフレームワークとして登場した。これらの進歩にもかかわらず、MLLMの複雑さと規模は解釈可能性と説明可能性において大きな課題をもたらし、確立に不可欠である。
論文参考訳（メタデータ） (2024-12-03T02:54:31Z)
VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文参考訳（メタデータ） (2024-10-17T15:27:17Z)
Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文参考訳（メタデータ） (2024-07-04T16:41:08Z)
A Review of Hybrid and Ensemble in Deep Learning for Natural Language Processing [0.5266869303483376]
レビューでは、各タスクを体系的に導入し、キーアーキテクチャをリカレントニューラルネットワーク(RNN)からBERTのようなトランスフォーマーベースのモデルに記述する。アンサンブル技術の適用性を強調し、様々なNLPアプリケーションを強化する能力を強調している。計算オーバーヘッド、オーバーフィッティング、モデル解釈複雑性などの実装上の課題に対処する。
論文参考訳（メタデータ） (2023-12-09T14:49:34Z)
Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文参考訳（メタデータ） (2023-08-24T16:17:40Z)
Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。 NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文参考訳（メタデータ） (2023-06-16T09:40:05Z)
MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。 MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。コンテキスト関連属性と関係知識を知識ベースから取得する。また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文参考訳（メタデータ） (2023-05-17T06:33:26Z)
ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:35:22Z)
Learning an Effective Context-Response Matching Model with Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文参考訳（メタデータ） (2020-09-14T08:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。