論文の概要: Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis
- arxiv url: http://arxiv.org/abs/2311.17898v2
- Date: Thu, 30 Nov 2023 18:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 11:25:12.477781
- Title: Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis
- Title(参考訳): ゼロショットマルチモーダル合成のための知識探索法
- Authors: Jinqi Luo, Kwan Ho Ryan Chan, Dimitris Dimos, Ren\'e Vidal
- Abstract要約: 意味的詳細が不十分な不正確なプロンプトによる幻覚と不信な合成は、マルチモーダル生成モデルで広く観察されている。
我々は、外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。
KPPは多様な視覚領域にまたがって忠実でセマンティックにリッチなコンテンツを生成することができ、マルチモーダル生成モデルを改善するための有望なソリューションを提供する。
- 参考スコア(独自算出の注目度): 6.215536001787723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations and unfaithful synthesis due to inaccurate prompts with
insufficient semantic details are widely observed in multimodal generative
models. A prevalent strategy to align multiple modalities is to fine-tune the
generator with a large number of annotated text-image pairs. However, such a
procedure is labor-consuming and resource-draining. The key question we ask is:
can we enhance the quality and faithfulness of text-driven generative models
beyond extensive text-image pair annotations? To address this question, we
propose Knowledge Pursuit Prompting (KPP), a zero-shot framework that
iteratively incorporates external knowledge to help generators produce reliable
visual content. Instead of training generators to handle generic prompts, KPP
employs a recursive knowledge query process to gather informative external
facts from the knowledge base, instructs a language model to compress the
acquired knowledge for prompt refinement, and utilizes text-driven generators
for visual synthesis. The entire process is zero-shot, without accessing the
architectures and parameters of generative models. We evaluate the framework
across multiple text-driven generative tasks (image, 3D rendering, and video)
on datasets of different domains. We further demonstrate the extensibility and
adaptability of KPP through varying foundation model bases and instructions.
Our results show that KPP is capable of generating faithful and semantically
rich content across diverse visual domains, offering a promising solution to
improve multimodal generative models.
- Abstract(参考訳): 意味的詳細が不十分な不正確なプロンプトによる幻覚と不適切な合成はマルチモーダル生成モデルで広く観察されている。
複数のモダリティを調整するための一般的な戦略は、多数の注釈付きテキストイメージペアでジェネレータを微調整することである。
しかし、そのような手続きは労働力と資源消費である。
私たちは、広範囲なテキストイメージペアアノテーションを超えて、テキスト駆動生成モデルの品質と忠実性を向上できますか?
そこで本稿では,外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。
ジェネリックプロンプトを処理するためにジェネレータを訓練する代わりに、KPPは知識ベースから情報的外部事実を収集するために再帰的知識クエリープロセスを使用し、獲得した知識を即時改善するために圧縮するように言語モデルに指示し、視覚合成にテキスト駆動ジェネレータを使用する。
生成モデルのアーキテクチャやパラメータにアクセスせずに、プロセス全体がゼロショットです。
異なるドメインのデータセット上で、複数のテキスト駆動生成タスク(画像、3Dレンダリング、ビデオ)でフレームワークを評価する。
さらに,KPPの拡張性と適応性について,基礎モデルベースと命令の相違による検証を行った。
以上の結果から,KPPは多様な視覚領域にまたがる忠実で意味的にリッチなコンテンツを生成することが可能であり,マルチモーダル生成モデルを改善するための有望なソリューションを提供する。
関連論文リスト
- Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal
Pre-trained Knowledge [44.31783230767321]
本稿では,一般的な画像記述を,よりセマンティックな詳細で補完するプラグイン・アンド・プレイ・フレームワークであるCapEnrichを提案する。
提案手法は,Web画像における生成文の記述性や多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-11-17T06:55:49Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen
Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。
近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。
そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:08:55Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Knowledge Graph-Augmented Abstractive Summarization with Semantic-Driven
Cloze Reward [42.925345819778656]
本稿では,グラフ拡張と意味駆動型RewarDによる抽象要約のための新しいフレームワークであるASGARDを紹介する。
本稿では,2つのエンコーダ(シーケンシャル文書エンコーダ)とグラフ構造化エンコーダ(グラフ構造化エンコーダ)の利用を提案する。
その結果、我々のモデルは、New York TimesとCNN/Daily Mailのデータセットからの入力として、知識グラフのない変種よりもはるかに高いROUGEスコアを生成することがわかった。
論文 参考訳(メタデータ) (2020-05-03T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。