論文の概要: Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework
- arxiv url: http://arxiv.org/abs/2307.12626v1
- Date: Mon, 24 Jul 2023 08:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:05:08.780715
- Title: Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework
- Title(参考訳): ヒューマンライクなマルチモーダル推論の強化:新しいチェアリングデータセットと包括的フレームワーク
- Authors: Jingxuan Wei, Cheng Tan, Zhangyang Gao, Linzhuang Sun, Siyuan Li,
Bihui Yu, Ruifeng Guo, Stan Z. Li
- Abstract要約: マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
オープンエンドな質問や合理性,回答の広範なコレクションを含む,新たなデータセットを提案する。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
- 参考スコア(独自算出の注目度): 34.11106221582344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal reasoning is a critical component in the pursuit of artificial
intelligence systems that exhibit human-like intelligence, especially when
tackling complex tasks. While the chain-of-thought (CoT) technique has gained
considerable attention, the existing ScienceQA dataset, which focuses on
multimodal scientific questions and explanations from elementary and high
school textbooks, lacks a comprehensive evaluation of diverse approaches. To
address this gap, we present COCO Multi-Modal Reasoning Dataset(COCO-MMRD), a
novel dataset that encompasses an extensive collection of open-ended questions,
rationales, and answers derived from the large object dataset COCO. Unlike
previous datasets that rely on multiple-choice questions, our dataset pioneers
the use of open-ended questions in the context of multimodal CoT, introducing a
more challenging problem that effectively assesses the reasoning capability of
CoT models. Through comprehensive evaluations and detailed analyses, we provide
valuable insights and propose innovative techniques, including multi-hop
cross-modal attention and sentence-level contrastive learning, to enhance the
image and text encoders. Extensive experiments demonstrate the efficacy of the
proposed dataset and techniques, offering novel perspectives for advancing
multimodal reasoning.
- Abstract(参考訳): マルチモーダル推論は、特に複雑なタスクに取り組む際に人間のような知性を示す人工知能システムの追求において重要な要素である。
チェーン・オブ・ソート(CoT)技術は注目されているが、既存のScienceQAデータセットは、小・高校の教科書からのマルチモーダルな科学的質問や説明に焦点を当てており、多様なアプローチの包括的な評価は欠いている。
このギャップに対処するために,我々は,開放された質問,合理性,回答の膨大なコレクションを包含する新しいデータセットであるcoco multi-modal reasoning dataset(coco-mmrd)を提案する。
複数選択の質問に依存する従来のデータセットとは異なり、データセットはマルチモーダルCoTのコンテキストにおけるオープンエンドの質問の使用を先導し、CoTモデルの推論能力を効果的に評価するより困難な問題を導入します。
総合的な評価と詳細な分析を通じて,画像とテキストエンコーダを強化するために,マルチホップクロスモーダル注意と文レベルのコントラスト学習を含む革新的な手法を提案する。
大規模な実験は、提案したデータセットとテクニックの有効性を示し、マルチモーダル推論を推し進めるための新しい視点を提供する。
関連論文リスト
- What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models [0.0]
自然言語処理におけるオープンドメイン質問回答(ODQA)は,大規模知識コーパスを用いて,事実質問に回答するシステムを構築する。
高品質なデータセットは、現実的なシナリオでモデルをトレーニングするために使用されます。
標準化されたメトリクスは、異なるODQAシステム間の比較を容易にする。
論文 参考訳(メタデータ) (2024-06-19T05:43:02Z) - Multiple Heads are Better than One: Mixture of Modality Knowledge Experts for Entity Representation Learning [51.80447197290866]
高品質なマルチモーダル実体表現を学習することは、マルチモーダル知識グラフ(MMKG)表現学習の重要な目標である。
既存の手法は、エレガントなエンティティワイドマルチモーダル融合戦略の構築に重点を置いている。
適応型マルチモーダルな実体表現を学習するために,Mixture of Modality Knowledge Expert (MoMoK) を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T06:36:17Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。