論文の概要: Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis
- arxiv url: http://arxiv.org/abs/2311.17898v1
- Date: Wed, 29 Nov 2023 18:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:07:58.554458
- Title: Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis
- Title(参考訳): ゼロショットマルチモーダル合成のための知識探索法
- Authors: Jinqi Luo, Kwan Ho Ryan Chan, Dimitris Dimos, Ren\'e Vidal
- Abstract要約: 意味的詳細が不十分な不正確なプロンプトによる幻覚と不信な合成は、マルチモーダル生成モデルで広く観察されている。
我々は、外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。
KPPは多様な視覚領域にまたがって忠実でセマンティックにリッチなコンテンツを生成することができ、マルチモーダル生成モデルを改善するための有望なソリューションを提供する。
- 参考スコア(独自算出の注目度): 6.215536001787723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations and unfaithful synthesis due to inaccurate prompts with
insufficient semantic details are widely observed in multimodal generative
models. A prevalent strategy to align multiple modalities is to fine-tune the
generator with a large number of annotated text-image pairs. However, such a
procedure is labor-consuming and resource-draining. The key question we ask is:
can we enhance the quality and faithfulness of text-driven generative models
beyond extensive text-image pair annotations? To address this question, we
propose Knowledge Pursuit Prompting (KPP), a zero-shot framework that
iteratively incorporates external knowledge to help generators produce reliable
visual content. Instead of training generators to handle generic prompts, KPP
employs a recursive knowledge query process to gather informative external
facts from the knowledge base, instructs a language model to compress the
acquired knowledge for prompt refinement, and utilizes text-driven generators
for visual synthesis. The entire process is zero-shot, without accessing the
architectures and parameters of generative models. We evaluate the framework
across multiple text-driven generative tasks (image, 3D rendering, and video)
on datasets of different domains. We further demonstrate the extensibility and
adaptability of KPP through varying foundation model bases and instructions.
Our results show that KPP is capable of generating faithful and semantically
rich content across diverse visual domains, offering a promising solution to
improve multimodal generative models.
- Abstract(参考訳): 意味的詳細が不十分な不正確なプロンプトによる幻覚と不適切な合成はマルチモーダル生成モデルで広く観察されている。
複数のモダリティを調整するための一般的な戦略は、多数の注釈付きテキストイメージペアでジェネレータを微調整することである。
しかし、そのような手続きは労働力と資源消費である。
私たちは、広範囲なテキストイメージペアアノテーションを超えて、テキスト駆動生成モデルの品質と忠実性を向上できますか?
そこで本稿では,外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。
ジェネリックプロンプトを処理するためにジェネレータを訓練する代わりに、KPPは知識ベースから情報的外部事実を収集するために再帰的知識クエリープロセスを使用し、獲得した知識を即時改善するために圧縮するように言語モデルに指示し、視覚合成にテキスト駆動ジェネレータを使用する。
生成モデルのアーキテクチャやパラメータにアクセスせずに、プロセス全体がゼロショットです。
異なるドメインのデータセット上で、複数のテキスト駆動生成タスク(画像、3Dレンダリング、ビデオ)でフレームワークを評価する。
さらに,KPPの拡張性と適応性について,基礎モデルベースと命令の相違による検証を行った。
以上の結果から,KPPは多様な視覚領域にまたがる忠実で意味的にリッチなコンテンツを生成することが可能であり,マルチモーダル生成モデルを改善するための有望なソリューションを提供する。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。