論文の概要: KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning
- arxiv url: http://arxiv.org/abs/2401.12863v1
- Date: Tue, 23 Jan 2024 15:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:05:59.824586
- Title: KAM-CoT: Knowledge Augmented Multimodal Chain-of-Thoughts Reasoning
- Title(参考訳): KAM-CoT:知識を付加したマルチモーダルチェーンの推論
- Authors: Debjyoti Mondal, Suraj Modi, Subhadarshi Panda, Rituraj Singh,
Godawari Sudhakar Rao
- Abstract要約: マルチモーダルタスクを包括的に理解するために,CoT推論,知識グラフ,複数モードを統合したフレームワークを提案する。
KAM-CoTは、効果的な合理性と答えを生成するために、KGグラウンドを用いた2段階のトレーニングプロセスを採用している。
平均精度は93.87%で、GPT-3.5(75.17%)が18%、GPT-4(83.99%)が10%を超えている。
- 参考スコア(独自算出の注目度): 3.103778949672541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance in
natural language processing tasks by leveraging chain of thought (CoT) that
enables step-by-step thinking. Extending LLMs with multimodal capabilities is
the recent interest, but incurs computational cost and requires substantial
hardware resources. To address these challenges, we propose KAM-CoT a framework
that integrates CoT reasoning, Knowledge Graphs (KGs), and multiple modalities
for a comprehensive understanding of multimodal tasks. KAM-CoT adopts a
two-stage training process with KG grounding to generate effective rationales
and answers. By incorporating external knowledge from KGs during reasoning, the
model gains a deeper contextual understanding reducing hallucinations and
enhancing the quality of answers. This knowledge-augmented CoT reasoning
empowers the model to handle questions requiring external context, providing
more informed answers. Experimental findings show KAM-CoT outperforms the
state-of-the-art methods. On the ScienceQA dataset, we achieve an average
accuracy of 93.87%, surpassing GPT-3.5 (75.17%) by 18% and GPT-4 (83.99%) by
10%. Remarkably, KAM-CoT achieves these results with only 280M trainable
parameters at a time, demonstrating its cost-efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は,段階的思考を可能にする思考の連鎖(CoT)を活用することで,自然言語処理タスクにおいて顕著な性能を示した。
マルチモーダル機能によるLLMの拡張は近年の関心事であるが、計算コストがかかり、ハードウェアリソースがかなり必要である。
これらの課題に対処するため,我々は,マルチモーダルタスクの包括的理解のために,CoT推論,知識グラフ(KG),複数モーダルを統合したフレームワークKAM-CoTを提案する。
KAM-CoTは、効果的な合理性と答えを生成するために、KGグラウンドを用いた2段階のトレーニングプロセスを採用している。
推論中にKGから外部知識を取り入れることで、モデルは幻覚の軽減と回答の質の向上をより深く理解する。
この知識強化されたCoT推論は、モデルに外部コンテキストを必要とする質問を処理する権限を与え、より詳しい回答を提供する。
実験の結果,KAM-CoTは最先端の手法よりも優れていた。
ScienceQAデータセットの平均精度は93.87%で、GPT-3.5(75.17%)が18%、GPT-4(83.99%)が10%を超えている。
驚くべきことに、kam-cotは一度に280mのトレーニング可能なパラメータでこれらの結果を達成し、そのコスト効率と有効性を示している。
関連論文リスト
- GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - EffiQA: Efficient Question-Answering with Strategic Multi-Model Collaboration on Knowledge Graphs [11.323661062578799]
EffiQAは、グローバルプランニング、効率的なKG探査、自己回帰という3つの段階で構成されている。
複数のKBQAベンチマークに関する実証的な証拠は、EffiQAの有効性を示している。
提案された新しいフレームワークが、効率的で知識集約的なクエリの道を開くことを期待しています。
論文 参考訳(メタデータ) (2024-06-03T11:56:07Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Evaluating and Enhancing Large Language Models for Conversational Reasoning on Knowledge Graphs [4.092862870428798]
我々は知識グラフ(KG)を用いた現在最先端の大規模言語モデル(GPT-4)の会話推論能力を評価する。
我々は,KG経路の正確かつ適応的な予測を行うために設計された基底KG推論エージェントであるLLM-ARKを紹介する。
LLaMA-2-7B-ARKは、現在の最先端モデルよりも5.28ポイント優れており、ターゲット@1評価基準では36.39%である。
論文 参考訳(メタデータ) (2023-12-18T15:23:06Z) - MCC-KD: Multi-CoT Consistent Knowledge Distillation [39.327560600207626]
そこで我々は,MCC-KD (Multi-CoT Consistent Knowledge Distillation) を提案する。
MCC-KDでは、各質問に対して複数の合理性を生成し、対応する予測の一貫性を強制する。
異なるモデルアーキテクチャと様々なモデルスケールを用いたMCC-KDの有効性について検討する。
論文 参考訳(メタデータ) (2023-10-23T09:32:53Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。