論文の概要: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
- arxiv url: http://arxiv.org/abs/2407.03314v1
- Date: Wed, 3 Jul 2024 17:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:05:47.100164
- Title: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
- Title(参考訳): BACON:幻覚を緩和するBag-of-Concept GraphでVLMをスーパーチャージ
- Authors: Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Chaojie Mao, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng,
- Abstract要約: 視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるBag-of-Concept Graph(BACON)ギフトモデル
BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造で示す。
100Kの注釈付き画像でデータセットを収集し、優れた機能を備えたVLMを実現する。
- 参考スコア(独自算出の注目度): 23.786407522549055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Bag-of-Concept Graph (BACON) to gift models with limited linguistic abilities to taste the privilege of Vision Language Models (VLMs) and boost downstream tasks such as detection, visual question answering (VQA), and image generation. Since the visual scenes in physical worlds are structured with complex relations between objects, BACON breaks down annotations into basic minimum elements and presents them in a graph structure. Element-wise style enables easy understanding, and structural composition liberates difficult locating. Careful prompt design births the BACON captions with the help of public-available VLMs and segmentation methods. In this way, we gather a dataset with 100K annotated images, which endow VLMs with remarkable capabilities, such as accurately generating BACON, transforming prompts into BACON format, envisioning scenarios in the style of BACONr, and dynamically modifying elements within BACON through interactive dialogue and more. Wide representative experiments, including detection, VQA, and image generation tasks, tell BACON as a lifeline to achieve previous out-of-reach tasks or excel in their current cutting-edge solutions.
- Abstract(参考訳): 本稿では,Bag-of-Concept Graph(BACON)を用いて,視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるギフトモデルを提案し,検出,視覚的質問応答(VQA),画像生成などの下流タスクを促進させる。
物理的な世界の視覚シーンはオブジェクト間の複雑な関係で構成されているため、BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造に提示する。
要素的スタイルは理解が容易であり、構造的構成は難しい位置を解放する。
注意深いプロンプトデザインは、パブリックなVLMとセグメンテーション手法の助けを借りてBACONキャプションを生んだ。
このようにして、100Kの注釈付き画像からなるデータセットを収集し、BACONを正確に生成し、プロンプトをBACONフォーマットに変換し、BACONのスタイルでシナリオを想定し、対話的な対話を通じてBACON内の要素を動的に修正するなど、優れた機能を持つVLMを実現する。
検出、VQA、画像生成タスクを含む幅広い代表的な実験では、BACONをライフラインとして、以前のアウト・オブ・リーチタスクを達成するか、現在の最先端ソリューションで優れていると伝えています。
関連論文リスト
- SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models [81.92098140232638]
シーングラフ生成(SGG)は、下流の推論タスクのための中間グラフ表現に視覚シーンを解析することを目的としている。
既存の手法は、新しい視覚的関係の概念を持つシーングラフを生成するのに苦労している。
シークエンス生成に基づく新しいオープン語彙SGGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T04:21:01Z) - ViStruct: Visual Structural Knowledge Extraction via Curriculum Guided
Code-Vision Representation [82.88378582161717]
最先端の視覚言語モデル(VLM)は、構造的知識抽出において限られた性能を持つ。
本稿では,視覚的構造的知識抽出のためのVLM学習フレームワークViStructを提案する。
論文 参考訳(メタデータ) (2023-11-22T09:23:34Z) - BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual
Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。
本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。
我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-19T07:53:43Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning [132.49090098391258]
IconQA(Icon Question Answering)の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) (2021-10-25T18:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。