論文の概要: Multimodal Chain-of-Thought Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2302.00923v1
- Date: Thu, 2 Feb 2023 07:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:56:12.453092
- Title: Multimodal Chain-of-Thought Reasoning in Language Models
- Title(参考訳): 言語モデルにおけるマルチモーダル連鎖思考推論
- Authors: Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex
Smola
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 80.902171201496
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have shown impressive performance on complex
reasoning by leveraging chain-of-thought (CoT) prompting to generate
intermediate reasoning chains as the rationale to infer the answer. However,
existing CoT studies are mostly isolated in the language modality with LLMs,
where LLMs are hard to deploy. To elicit CoT reasoning in multimodality, a
possible solution is to fine-tune small language models by fusing the vision
and language features to perform CoT reasoning. The key challenge is that those
language models tend to generate hallucinated reasoning chains that mislead the
answer inference. To mitigate the effect of such mistakes, we propose
Multimodal-CoT that incorporates vision features in a decoupled training
framework. The framework separates the rationale generation and answer
inference into two stages. By incorporating the vision features in both stages,
the model is able to generate effective rationales that contribute to answer
inference. With Multimodal-CoT, our model under 1 billion parameters
outperforms the previous state-of-the-art LLM (GPT-3.5) by 16% (75.17%->91.68%)
on the ScienceQA benchmark and even surpasses human performance. Code is
publicly available at https://github.com/amazon-science/mm-cot.
- Abstract(参考訳): 大規模言語モデル (LLM) は、中間的推論連鎖を推論する論理として生成し、複雑な推論において顕著な性能を示す。
しかしながら、既存のCoT研究は、LLMの展開が難しい言語モダリティにおいて、主に孤立している。
CoT推論をマルチモーダルで行うためには、ビジョンと言語特徴を融合させてCoT推論を実行することで、小さな言語モデルを微調整することが可能になる。
重要な課題は、これらの言語モデルが、答え推論を誤解させる幻覚的推論連鎖を生成する傾向があることです。
このような誤りの影響を軽減するために,視覚特徴を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
このフレームワークは合理性生成と解答推論を2段階に分けている。
両段階に視覚的特徴を組み込むことで、モデルが答えの推論に寄与する効果的な合理性を生成することができる。
マルチモーダルCoTでは,従来のLCM(GPT-3.5)を16%(75.17%->91.68%)上回る10億パラメータ未満のモデルがScienceQAベンチマークで達成され,人的パフォーマンスを上回りました。
コードはhttps://github.com/amazon-science/mm-cotで公開されている。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning
in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。
これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。
本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-10-25T08:03:10Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Why Can Large Language Models Generate Correct Chain-of-Thoughts? [11.681357459998171]
自然言語生成に適した2階層階層型グラフィカルモデルを提案する。
我々は、LLM生成した思考の連鎖の可能性を測る魅力的な幾何学的収束率を確立する。
論文 参考訳(メタデータ) (2023-10-20T15:09:46Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks [39.39138995087475]
言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
論文 参考訳(メタデータ) (2022-05-11T18:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。