Fugu-MT 論文翻訳(概要): BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

論文の概要: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

arxiv url: http://arxiv.org/abs/2407.03314v1
Date: Wed, 3 Jul 2024 17:55:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 13:05:47.100164
Title: BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
Title（参考訳）: BACON:幻覚を緩和するBag-of-Concept GraphでVLMをスーパーチャージ
Authors: Zhantao Yang, Ruili Feng, Keyu Yan, Huangji Wang, Zhicai Wang, Shangwen Zhu, Han Zhang, Jie Xiao, Pingyu Wu, Kai Zhu, Jixuan Chen, Chen-Wei Xie, Chaojie Mao, Yue Yang, Hongyang Zhang, Yu Liu, Fan Cheng,
Abstract要約: 視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるBag-of-Concept Graph(BACON)ギフトモデル BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造で示す。 100Kの注釈付き画像でデータセットを収集し、優れた機能を備えたVLMを実現する。
参考スコア（独自算出の注目度）: 23.786407522549055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents Bag-of-Concept Graph (BACON) to gift models with limited linguistic abilities to taste the privilege of Vision Language Models (VLMs) and boost downstream tasks such as detection, visual question answering (VQA), and image generation. Since the visual scenes in physical worlds are structured with complex relations between objects, BACON breaks down annotations into basic minimum elements and presents them in a graph structure. Element-wise style enables easy understanding, and structural composition liberates difficult locating. Careful prompt design births the BACON captions with the help of public-available VLMs and segmentation methods. In this way, we gather a dataset with 100K annotated images, which endow VLMs with remarkable capabilities, such as accurately generating BACON, transforming prompts into BACON format, envisioning scenarios in the style of BACONr, and dynamically modifying elements within BACON through interactive dialogue and more. Wide representative experiments, including detection, VQA, and image generation tasks, tell BACON as a lifeline to achieve previous out-of-reach tasks or excel in their current cutting-edge solutions.
Abstract（参考訳）: 本稿では,Bag-of-Concept Graph(BACON)を用いて,視覚言語モデル(VLM)の特権を味わう言語能力に制限のあるギフトモデルを提案し,検出,視覚的質問応答(VQA),画像生成などの下流タスクを促進させる。物理的な世界の視覚シーンはオブジェクト間の複雑な関係で構成されているため、BACONはアノテーションを基本的な最小要素に分解し、それらをグラフ構造に提示する。要素的スタイルは理解が容易であり、構造的構成は難しい位置を解放する。注意深いプロンプトデザインは、パブリックなVLMとセグメンテーション手法の助けを借りてBACONキャプションを生んだ。このようにして、100Kの注釈付き画像からなるデータセットを収集し、BACONを正確に生成し、プロンプトをBACONフォーマットに変換し、BACONのスタイルでシナリオを想定し、対話的な対話を通じてBACON内の要素を動的に修正するなど、優れた機能を持つVLMを実現する。検出、VQA、画像生成タスクを含む幅広い代表的な実験では、BACONをライフラインとして、以前のアウト・オブ・リーチタスクを達成するか、現在の最先端ソリューションで優れていると伝えています。

関連論文リスト

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。 450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-06-24T17:59:55Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文参考訳（メタデータ） (2024-11-23T02:20:32Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。タスク例をインスタンス化するための3段階の分類駆動手法について述べる。テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文参考訳（メタデータ） (2024-09-06T06:49:55Z)
Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文参考訳（メタデータ） (2024-08-09T12:13:01Z)
SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文参考訳（メタデータ） (2024-07-02T06:41:39Z)
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。 OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文参考訳（メタデータ） (2024-06-27T17:59:01Z)
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文参考訳（メタデータ） (2023-12-14T00:42:23Z)
Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文参考訳（メタデータ） (2023-07-20T00:02:24Z)
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-06-20T15:13:02Z)
FuseCap: Leveraging Large Language Models for Enriched Fused Image Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文参考訳（メタデータ） (2023-05-28T13:16:03Z)
Paraphrasing Is All You Need for Novel Object Captioning [126.66301869607656]
新たな物体キャプション (NOC) は, 訓練中に真実のキャプションを観察することなく, 対象を含む画像を記述することを目的としている。本稿では,NOC の2段階学習フレームワークである Paraphrasing-to-Captioning (P2C) について述べる。
論文参考訳（メタデータ） (2022-09-25T22:56:04Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文参考訳（メタデータ） (2021-12-09T22:05:05Z)
ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文参考訳（メタデータ） (2021-11-18T14:49:15Z)
IconQA: A New Benchmark for Abstract Diagram Understanding and Visual Language Reasoning [132.49090098391258]
IconQA(Icon Question Answering)の新たな課題を紹介する。 IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文参考訳（メタデータ） (2021-10-25T18:52:26Z)
VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文参考訳（メタデータ） (2020-09-28T23:20:02Z)
Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文参考訳（メタデータ） (2020-07-19T03:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。