論文の概要: Compositional Chain-of-Thought Prompting for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2311.17076v1
- Date: Mon, 27 Nov 2023 22:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 00:17:37.410923
- Title: Compositional Chain-of-Thought Prompting for Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルのためのコンポジションチェーン・オブ・サート・プロンプト
- Authors: Chancharik Mitra, Brandon Huang, Trevor Darrell, Roei Herzig
- Abstract要約: もっとも先進的なLMMでさえ、構成的視覚的推論の側面を捉えるのに苦戦している。
本稿では,新しいゼロショット・チェーン・オブ・ノート法であるコンポジション・チェーン・オブ・ノート(CCoT)を提案する。
具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。
- 参考スコア(独自算出の注目度): 50.12526092423589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of strong visual backbones and Large Language Model (LLM)
reasoning has led to Large Multimodal Models (LMMs) becoming the current
standard for a wide range of vision and language (VL) tasks. However, recent
research has shown that even the most advanced LMMs still struggle to capture
aspects of compositional visual reasoning, such as attributes and relationships
between objects. One solution is to utilize scene graphs (SGs)--a formalization
of objects and their relations and attributes that has been extensively used as
a bridge between the visual and textual domains. Yet, scene graph data requires
scene graph annotations, which are expensive to collect and thus not easily
scalable. Moreover, finetuning an LMM based on SG data can lead to catastrophic
forgetting of the pretraining objective. To overcome this, inspired by
chain-of-thought methods, we propose Compositional Chain-of-Thought (CCoT), a
novel zero-shot Chain-of-Thought prompting method that utilizes SG
representations in order to extract compositional knowledge from an LMM.
Specifically, we first generate an SG using the LMM, and then use that SG in
the prompt to produce a response. Through extensive experiments, we find that
the proposed CCoT approach not only improves LMM performance on several vision
and language VL compositional benchmarks but also improves the performance of
several popular LMMs on general multimodal benchmarks, without the need for
fine-tuning or annotated ground-truth SGs.
- Abstract(参考訳): 強力な視覚バックボーンとLLM(Large Language Model)推論の組み合わせにより、LMM(Large Multimodal Models)が、幅広いビジョンと言語(VL)タスクの現在の標準となった。
しかし、近年の研究では、最も先進的なLMMでさえ、属性やオブジェクト間の関係といった構成的視覚的推論の側面を捉えるのに苦戦していることが示されている。
1つの解決策はシーングラフ(SG)を利用することだ。オブジェクトとその関係と属性は視覚領域とテキスト領域の間のブリッジとして広く利用されている。
しかし、シーングラフデータにはシーングラフアノテーションが必要である。
さらに、SGデータに基づくLMMの微調整は、事前学習対象を壊滅的に忘れてしまう可能性がある。
これを解決するために,LMMから合成知識を抽出するために,SG表現を利用した新しいゼロショット・チェーン・オブ・ソート・プロンプト法であるコンポジション・チェーン・オブ・ソート(CCoT)を提案する。
具体的には,まずLMMを用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
広範にわたる実験により、提案手法は、複数の視覚および言語VL合成ベンチマークにおけるLMM性能を向上するだけでなく、一般的なマルチモーダルベンチマークにおけるいくつかのLMMの性能も向上することがわかった。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - All Against Some: Efficient Integration of Large Language Models for Message Passing in Graph Neural Networks [51.19110891434727]
事前訓練された知識と強力なセマンティック理解能力を持つ大規模言語モデル(LLM)は、最近、視覚とテキストデータを使用してアプリケーションに恩恵をもたらす顕著な能力を示している。
E-LLaGNNは、グラフから限られたノード数を増やして、グラフ学習のメッセージパッシング手順を強化するオンデマンドLLMサービスを備えたフレームワークである。
論文 参考訳(メタデータ) (2024-07-20T22:09:42Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
トレーニング可能なCNNレイヤをいくつか使用すれば、ワードピクセルのアテンション重みをマスクロジットに変換することができる。
我々のF-LMMは特別なセグメンテーショントークンを学習したり、高品質な接地命令チューニングデータを利用したりもしません。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。
本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文 参考訳(メタデータ) (2024-04-23T08:24:43Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。