論文の概要: Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings
- arxiv url: http://arxiv.org/abs/2305.02317v1
- Date: Wed, 3 May 2023 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:40:27.374951
- Title: Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings
- Title(参考訳): 思考の視覚的連鎖:マルチモーダルインフィルによる論理ギャップのブリッジ
- Authors: Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei,
Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang
- Abstract要約: VCoTは,視覚言語を基盤とした思考の連鎖を利用して,逐次データ内の論理的ギャップを埋める手法である。
本手法は視覚誘導を用いて,一貫した新しい情報を付加する合成マルチモーダル埋め込みを生成する。
我々は,VCoTが新規で一貫した合成データ拡張を行い,思考ベースラインの連鎖を打破することを示す。
- 参考スコア(独自算出の注目度): 54.34622327572233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models elicit reasoning in a chain of
thought that allows models to decompose problems in a human-like fashion.
Though this paradigm improves multi-step reasoning ability in language models,
it is limited by being unimodal and applied mainly to question-answering tasks.
We claim that incorporating visual augmentation into reasoning is essential,
especially for complex, imaginative tasks. Consequently, we introduce VCoT, a
novel method that leverages chain of thought prompting with vision-language
grounding to recursively bridge the logical gaps within sequential data. Our
method uses visual guidance to generate synthetic multimodal infillings that
add consistent and novel information to reduce the logical gaps for downstream
tasks that can benefit from temporal reasoning, as well as provide
interpretability into models' multi-step reasoning. We apply VCoT to the Visual
Storytelling and WikiHow summarization datasets and demonstrate through human
evaluation that VCoT offers novel and consistent synthetic data augmentation
beating chain of thought baselines, which can be used to enhance downstream
performance.
- Abstract(参考訳): 大規模言語モデルの最近の進歩は、モデルが人間のような方法で問題を分解できるように、思考の連鎖における推論をもたらす。
このパラダイムは言語モデルの多段階推論能力を向上させるが、ユニモーダルであり、主に質問応答タスクに適用することで制限される。
視覚的な拡張を推論に組み込むことは、特に複雑で想像力のあるタスクに不可欠である、と我々は主張する。
その結果,VCoTは視覚言語接地による思考の連鎖を利用して,逐次データ内の論理的ギャップを再帰的にブリッジする手法である。
提案手法は,視覚的なガイダンスを用いて合成マルチモーダルインフィルメントを生成し,時間的推論の恩恵を受ける下流タスクの論理的ギャップを低減し,モデルの多段階推論への解釈可能性を提供する。
ビジュアルストーリーテリングとウィキハウ要約データセットにvcotを適用し、vcotが思考ベースラインの新規で一貫性のある合成データ拡張ビーティングチェーンを提供し、下流のパフォーマンス向上に使用できることを人間による評価を通じて実証する。
関連論文リスト
- Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning [45.517215214938844]
チェーン・オブ・シークレット技術は、マルチモーダルタスクにおいてよく受け入れられている。
マルチモーダル表現学習におけるソフトプロンプトチューニングのためのAgoT(Aggregation-Graph-of-Thought)機構を提案する。
論文 参考訳(メタデータ) (2024-04-06T07:39:44Z) - DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning
in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。
これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。
本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-10-25T08:03:10Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - Learning to Reason and Memorize with Self-Notes [51.17609489687686]
大規模言語モデルは多段階推論に苦しむことが示されている。
本稿では,これらの問題を解決するための簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-05-01T14:02:48Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。