論文の概要: Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings
- arxiv url: http://arxiv.org/abs/2305.02317v3
- Date: Tue, 23 Jan 2024 02:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 19:56:04.772682
- Title: Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings
- Title(参考訳): 思考の視覚的連鎖:マルチモーダルインフィルによる論理ギャップのブリッジ
- Authors: Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei,
Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang
- Abstract要約: 本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
- 参考スコア(独自算出の注目度): 61.04460792203266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models elicit reasoning in a
chain-of-thought that allows models to decompose problems in a human-like
fashion. Though this paradigm improves multi-step reasoning ability in language
models, it is limited by being unimodal and applied mainly to
question-answering tasks. We claim that incorporating visual augmentation into
reasoning is essential, especially for complex, imaginative tasks.
Consequently, we introduce VCoT, a novel method that leverages chain-of-thought
prompting with vision-language grounding to recursively bridge the logical gaps
within sequential data. Our method uses visual guidance to generate synthetic
multimodal infillings that add consistent and novel information to reduce the
logical gaps for downstream tasks that can benefit from temporal reasoning, as
well as provide interpretability into models' multi-step reasoning. We apply
VCoT to the Visual Storytelling and WikiHow summarization datasets and
demonstrate through human evaluation that VCoT offers novel and consistent
synthetic data augmentation beating chain-of-thought baselines, which can be
used to enhance downstream performance.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、モデルが人間のような方法で問題を分解できるチェーン・オブ・シントにおける推論を引き出す。
このパラダイムは言語モデルの多段階推論能力を向上させるが、ユニモーダルであり、主に質問応答タスクに適用することで制限される。
視覚的な拡張を推論に組み込むことは、特に複雑で想像力のあるタスクに不可欠である、と我々は主張する。
その結果,VCoTは,逐次データ内の論理的ギャップを再帰的にブリッジするために,視覚言語接地を促進させる新しい手法である。
提案手法は,視覚的なガイダンスを用いて合成マルチモーダルインフィルメントを生成し,時間的推論の恩恵を受ける下流タスクの論理的ギャップを低減し,モデルの多段階推論への解釈可能性を提供する。
我々はvcotをビジュアルストーリーテリングとwikihow要約データセットに適用し、vcotが下流のパフォーマンス向上に使用できる、新しい一貫性のある合成データ拡張を提供するという人間的評価を通して実証する。
関連論文リスト
- Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning [45.517215214938844]
チェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。
マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:39:44Z) - DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning
in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。
これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。
本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-10-25T08:03:10Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - Learning to Reason and Memorize with Self-Notes [51.17609489687686]
大規模言語モデルは多段階推論に苦しむことが示されている。
本稿では,これらの問題を解決するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-01T14:02:48Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。