論文の概要: Multimodal Chain-of-Thought Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2302.00923v1
- Date: Thu, 2 Feb 2023 07:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:56:12.453092
- Title: Multimodal Chain-of-Thought Reasoning in Language Models
- Title(参考訳): 言語モデルにおけるマルチモーダル連鎖思考推論
- Authors: Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex
Smola
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 80.902171201496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have shown impressive performance on complex
reasoning by leveraging chain-of-thought (CoT) prompting to generate
intermediate reasoning chains as the rationale to infer the answer. However,
existing CoT studies are mostly isolated in the language modality with LLMs,
where LLMs are hard to deploy. To elicit CoT reasoning in multimodality, a
possible solution is to fine-tune small language models by fusing the vision
and language features to perform CoT reasoning. The key challenge is that those
language models tend to generate hallucinated reasoning chains that mislead the
answer inference. To mitigate the effect of such mistakes, we propose
Multimodal-CoT that incorporates vision features in a decoupled training
framework. The framework separates the rationale generation and answer
inference into two stages. By incorporating the vision features in both stages,
the model is able to generate effective rationales that contribute to answer
inference. With Multimodal-CoT, our model under 1 billion parameters
outperforms the previous state-of-the-art LLM (GPT-3.5) by 16% (75.17%->91.68%)
on the ScienceQA benchmark and even surpasses human performance. Code is
publicly available at https://github.com/amazon-science/mm-cot.
- Abstract(参考訳): 大規模言語モデル (LLM) は、中間的推論連鎖を推論する論理として生成し、複雑な推論において顕著な性能を示す。
しかしながら、既存のCoT研究は、LLMの展開が難しい言語モダリティにおいて、主に孤立している。
CoT推論をマルチモーダルで行うためには、ビジョンと言語特徴を融合させてCoT推論を実行することで、小さな言語モデルを微調整することが可能になる。
重要な課題は、これらの言語モデルが、答え推論を誤解させる幻覚的推論連鎖を生成する傾向があることです。
このような誤りの影響を軽減するために,視覚特徴を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
このフレームワークは合理性生成と解答推論を2段階に分けている。
両段階に視覚的特徴を組み込むことで、モデルが答えの推論に寄与する効果的な合理性を生成することができる。
マルチモーダルCoTでは,従来のLCM(GPT-3.5)を16%(75.17%->91.68%)上回る10億パラメータ未満のモデルがScienceQAベンチマークで達成され,人的パフォーマンスを上回りました。
コードはhttps://github.com/amazon-science/mm-cotで公開されている。
関連論文リスト
- Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z) - Automatic Model Selection with Large Language Models for Reasoning [33.93807127935167]
Chain-of-Thought (CoT) と Program-Aided Language Models (PAL) は2つの異なる推論方法を表す。
本稿では,大言語モデルを用いて両世界の長所を結合するモデル選択手法を提案する。
提案手法は,8つの推論データセット間で有意な性能向上を示す。
論文 参考訳(メタデータ) (2023-05-23T17:57:59Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。