論文の概要: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
- arxiv url: http://arxiv.org/abs/2407.03314v1
- Date: Wed, 3 Jul 2024 17:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:05:47.100164
- Title: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
- Title(参考訳): BACON:幻覚を緩和するBag-of-Concept GraphでVLMをスーパーチャージ
- Authors: Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Chaojie Mao, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng,
- Abstract要約: 視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるBag-of-Concept Graph(BACON)ギフトモデル
BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造で示す。
100Kの注釈付き画像でデータセットを収集し、優れた機能を備えたVLMを実現する。
- 参考スコア(独自算出の注目度): 23.786407522549055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Bag-of-Concept Graph (BACON) to gift models with limited linguistic abilities to taste the privilege of Vision Language Models (VLMs) and boost downstream tasks such as detection, visual question answering (VQA), and image generation. Since the visual scenes in physical worlds are structured with complex relations between objects, BACON breaks down annotations into basic minimum elements and presents them in a graph structure. Element-wise style enables easy understanding, and structural composition liberates difficult locating. Careful prompt design births the BACON captions with the help of public-available VLMs and segmentation methods. In this way, we gather a dataset with 100K annotated images, which endow VLMs with remarkable capabilities, such as accurately generating BACON, transforming prompts into BACON format, envisioning scenarios in the style of BACONr, and dynamically modifying elements within BACON through interactive dialogue and more. Wide representative experiments, including detection, VQA, and image generation tasks, tell BACON as a lifeline to achieve previous out-of-reach tasks or excel in their current cutting-edge solutions.
- Abstract(参考訳): 本稿では,Bag-of-Concept Graph(BACON)を用いて,視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるギフトモデルを提案し,検出,視覚的質問応答(VQA),画像生成などの下流タスクを促進させる。
物理的な世界の視覚シーンはオブジェクト間の複雑な関係で構成されているため、BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造に提示する。
要素的スタイルは理解が容易であり、構造的構成は難しい位置を解放する。
注意深いプロンプトデザインは、パブリックなVLMとセグメンテーション手法の助けを借りてBACONキャプションを生んだ。
このようにして、100Kの注釈付き画像からなるデータセットを収集し、BACONを正確に生成し、プロンプトをBACONフォーマットに変換し、BACONのスタイルでシナリオを想定し、対話的な対話を通じてBACON内の要素を動的に修正するなど、優れた機能を持つVLMを実現する。
検出、VQA、画像生成タスクを含む幅広い代表的な実験では、BACONをライフラインとして、以前のアウト・オブ・リーチタスクを達成するか、現在の最先端ソリューションで優れていると伝えています。
関連論文リスト
- FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。
タスク例をインスタンス化するための3段階の分類駆動手法について述べる。
テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文 参考訳(メタデータ) (2024-09-06T06:49:55Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning [132.49090098391258]
IconQA(Icon Question Answering)の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) (2021-10-25T18:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。