論文の概要: Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework
- arxiv url: http://arxiv.org/abs/2307.12626v2
- Date: Mon, 25 Sep 2023 15:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:40:15.283369
- Title: Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework
- Title(参考訳): ヒューマンライクなマルチモーダル推論の強化:新しいチェアリングデータセットと包括的フレームワーク
- Authors: Jingxuan Wei, Cheng Tan, Zhangyang Gao, Linzhuang Sun, Siyuan Li,
Bihui Yu, Ruifeng Guo, Stan Z. Li
- Abstract要約: マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
- 参考スコア(独自算出の注目度): 51.44863255495668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning is a critical component in the pursuit of artificial
intelligence systems that exhibit human-like intelligence, especially when
tackling complex tasks. While the chain-of-thought (CoT) technique has gained
considerable attention, the existing ScienceQA dataset, which focuses on
multimodal scientific questions and explanations from elementary and high
school textbooks, lacks a comprehensive evaluation of diverse approaches. To
address this gap, we present COCO Multi-Modal Reasoning(COCO-MMR) dataset, a
novel dataset that encompasses an extensive collection of open-ended questions,
rationales, and answers derived from the large object dataset COCO. Unlike
previous datasets that rely on multiple-choice questions, our dataset pioneers
the use of open-ended questions in the context of multimodal CoT, introducing a
more challenging problem that effectively assesses the reasoning capability of
CoT models. Through comprehensive evaluations and detailed analyses, we provide
valuable insights and propose innovative techniques, including multi-hop
cross-modal attention and sentence-level contrastive learning, to enhance the
image and text encoders. Extensive experiments demonstrate the efficacy of the
proposed dataset and techniques, offering novel perspectives for advancing
multimodal reasoning. The data and code are available at
\href{https://github.com/weijingxuan/COCO-MMR}{https://github.com/weijingxuan/COCO-MMR}.
- Abstract(参考訳): マルチモーダル推論は、特に複雑なタスクに取り組む際に人間のような知性を示す人工知能システムの追求において重要な要素である。
チェーン・オブ・ソート(CoT)技術は注目されているが、既存のScienceQAデータセットは、小・高校の教科書からのマルチモーダルな科学的質問や説明に焦点を当てており、多様なアプローチの包括的な評価は欠いている。
このギャップに対処するために、我々は、cocoから派生したオープンエンドな質問、合理性、回答の集合を包含する新しいデータセットであるcoco multi-modal reasoning(coco-mmr)データセットを提案する。
複数選択の質問に依存する従来のデータセットとは異なり、データセットはマルチモーダルCoTのコンテキストにおけるオープンエンドの質問の使用を先導し、CoTモデルの推論能力を効果的に評価するより困難な問題を導入します。
総合的な評価と詳細な分析を通じて,画像とテキストエンコーダを強化するために,マルチホップクロスモーダル注意と文レベルのコントラスト学習を含む革新的な手法を提案する。
大規模な実験は、提案したデータセットとテクニックの有効性を示し、マルチモーダル推論を推し進めるための新しい視点を提供する。
データとコードは \href{https://github.com/weijingxuan/COCO-MMR}{https://github.com/weijingxuan/COCO-MMR} で公開されている。
関連論文リスト
- Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Continual Multimodal Knowledge Graph Construction [36.82031177254863]
マルチモーダル知識グラフ構築(MKGC)は、テキストや画像などの複数のモーダルを使って実体と関係の構造化表現を作成する。
知識グラフ構築のための現在の連続的な設定は、主にテキストデータから実体と関係を抽出することに焦点を当てている。
連続学習における一貫したマルチモーダル最適化の強みを生かした連続MKGCのための一貫したマルチモーダル・コンセント・トランスフォーマ・フレームワーク(LMC)を提案する。
論文 参考訳(メタデータ) (2023-05-15T14:58:28Z) - Combining Deep Neural Reranking and Unsupervised Extraction for
Multi-Query Focused Summarization [0.30458514384586394]
CrisisFACTS Trackは、イベントトラッキングの領域におけるマルチストリームファクトフィニングのような課題に対処することを目的としている。
本稿では,Linear Programming (ILP) とMaximal Marginal Relevance (MMR) フレームワークの検索,再評価,統合の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-02-02T15:08:25Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Big Data Analytics Applying the Fusion Approach of Multicriteria
Decision Making with Deep Learning Algorithms [0.0]
複数基準に基づく意思決定は、ビッグデータ分析における代替効果に関連する様々な問題に対して解決すべき重要な問題の1つである。
意思決定のようなアルゴリズムや、マルチ基準に基づくディープラーニングメカニズムを含む、最新の機械学習技術に基づくソリューションを見つける傾向があります。
本質的には、ビジネス、農業、情報技術、コンピュータ科学を含むいくつかの分野は、深層学習と多基準に基づく意思決定問題を使用する。
論文 参考訳(メタデータ) (2021-02-02T05:56:03Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。