論文の概要: Contextual Knowledge Pursuit for Faithful Visual Synthesis
- arxiv url: http://arxiv.org/abs/2311.17898v3
- Date: Tue, 05 Nov 2024 16:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:48.072567
- Title: Contextual Knowledge Pursuit for Faithful Visual Synthesis
- Title(参考訳): 忠実な視覚合成のための文脈知識探索
- Authors: Jinqi Luo, Kwan Ho Ryan Chan, Dimitris Dimos, René Vidal,
- Abstract要約: 大きな言語モデル(LLM)では、幻覚を減らすための一般的な戦略は、外部データベースから事実知識を取得することである。
本稿では,外部知識とパラメトリック知識の相補的強みを利用して,生成元が信頼できる視覚コンテンツを生成できるようにするフレームワークであるコンパラメトリック知識探索法(CKPT)を提案する。
- 参考スコア(独自算出の注目度): 33.191847768674826
- License:
- Abstract: Modern text-to-vision generative models often hallucinate when the prompt describing the scene to be generated is underspecified. In large language models (LLMs), a prevalent strategy to reduce hallucinations is to retrieve factual knowledge from an external database. While such retrieval augmentation strategies have great potential to enhance text-to-vision generators, existing static top-K retrieval methods explore the knowledge pool once, missing the broader context necessary for high-quality generation. Furthermore, LLMs internally possess rich world knowledge learned during large-scale training (parametric knowledge) that could mitigate the need for external data retrieval. This paper proposes Contextual Knowledge Pursuit (CKPT), a framework that leverages the complementary strengths of external and parametric knowledge to help generators produce reliable visual content. Instead of the one-time retrieval of facts from an external database to improve a given prompt, CKPT uses (1) an LLM to decide whether to seek external knowledge or to self-elicit descriptions from LLM parametric knowledge, (2) a knowledge pursuit process to contextually seek and sequentially gather most relevant facts, (3) a knowledge aggregator for prompt enhancement with the gathered fact context, and (4) a filtered fine-tuning objective to improve visual synthesis with richer prompts. We evaluate CKPT across multiple text-driven generative tasks (image, 3D rendering, and video) on datasets of rare objects and daily scenarios. Our results show that CKPT is capable of generating faithful and semantically rich content across diverse visual domains, offering a promising data source for zero-shot synthesis and filtered fine-tuning of text-to-vision generative models.
- Abstract(参考訳): 現代のテクスト・ツー・ビジョン生成モデルは、生成されたシーンを記述するプロンプトが不明確であるときにしばしば幻覚を引き起こす。
大きな言語モデル(LLM)では、幻覚を減らすための一般的な戦略は、外部データベースから事実知識を取得することである。
このような検索戦略はテキスト・ツー・ビジョン・ジェネレータを強化する大きな可能性を持っているが、既存の静的トップK検索手法では知識プールを一度に探索し、高品質な生成に必要なより広いコンテキストを欠いている。
さらに、LLMは、大規模なトレーニング(パラメトリック知識)で学んだ豊富な世界知識を内部に持っているため、外部データ検索の必要性を軽減できる。
本稿では,外部知識とパラメトリック知識の相補的強みを活用して生成者が信頼できる視覚コンテンツを作成できるようにするフレームワークであるコンテキスト知識探索(CKPT)を提案する。
CKPTは,(1)外部データベースからの事象を1回検索して与えられたプロンプトを改善する代わりに,(1)外部知識を求めるか,又はLPMパラメトリックな知識から自己エリートな記述を求めるかを決定するために,(2)関連事実を文脈的に探索し,逐次的に収集する知識追求プロセス,(3)収集された事実コンテキストを迅速に促進するための知識集約装置,(4)よりリッチなプロンプトによる視覚合成を改善するためのフィルタされた微調整目標を使用する。
我々は、まれなオブジェクトや日常シナリオのデータセットに基づいて、複数のテキスト駆動生成タスク(画像、3Dレンダリング、ビデオ)にわたるCKPTを評価する。
その結果、CKPTは多様な視覚領域にまたがって忠実で意味的にリッチなコンテンツを生成でき、ゼロショット合成のための有望なデータソースとテキスト・ツー・ビジョン生成モデルの微調整が可能であることがわかった。
関連論文リスト
- Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Active Retrieval Augmented Generation [123.68874416084499]
外部知識資源から情報を取得することで、大きな言語モデル(LM)を拡張することは、有望な解決策である。
ほとんどの既存の検索拡張LMは、入力に基づいて一度だけ情報を検索する検索と生成のセットアップを採用している。
本稿では,将来的な内容を予測するために,文の予測を反復的に利用する汎用手法であるフォワード・フォワード・アクティブ・レトリヴァル・ジェネレーション・ジェネレーション(FLARE)を提案する。
論文 参考訳(メタデータ) (2023-05-11T17:13:40Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。