論文の概要: Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference
- arxiv url: http://arxiv.org/abs/2504.09620v1
- Date: Sun, 13 Apr 2025 15:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:56:09.950516
- Title: Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference
- Title(参考訳): Metropolis-Hastings Captioning Game: 分散ベイズ推論によるビジョン言語モデルの知識融合
- Authors: Yuta Matsui, Ryosuke Yamaki, Ryo Ueda, Seitaro Shinagawa, Tadahiro Taniguchi,
- Abstract要約: 本稿では,複数の視覚言語モデル(VLM)の知識を相互に学習することで融合させるメトロポリス・ハスティングス・キャプションゲーム(MHCG)を提案する。
知識融合プロセスは、画像を交互にキャプションし、互いに学習する2つのVLMエージェント間の通信を確立する。
- 参考スコア(独自算出の注目度): 10.194469147760788
- License:
- Abstract: We propose the Metropolis-Hastings Captioning Game (MHCG), a method to fuse knowledge of multiple vision-language models (VLMs) by learning from each other. Although existing methods that combine multiple models suffer from inference costs and architectural constraints, MHCG avoids these problems by performing decentralized Bayesian inference through a process resembling a language game. The knowledge fusion process establishes communication between two VLM agents alternately captioning images and learning from each other. We conduct two image-captioning experiments with two VLMs, each pre-trained on a different dataset. The first experiment demonstrates that MHCG achieves consistent improvement in reference-free evaluation metrics. The second experiment investigates how MHCG contributes to sharing VLMs' category-level vocabulary by observing the occurrence of the vocabulary in the generated captions.
- Abstract(参考訳): 本稿では,複数の視覚言語モデル (VLM) の知識を相互に学習して融合させる手法であるメトロポリス・ハスティングス・キャプタリング・ゲーム (MHCG) を提案する。
複数のモデルを組み合わせた既存の手法は推論コストとアーキテクチャ上の制約に悩まされているが、MHCGは言語ゲームに似たプロセスを通じて分散ベイズ推論を実行することでこれらの問題を回避している。
知識融合プロセスは、画像を交互にキャプションし、互いに学習する2つのVLMエージェント間の通信を確立する。
2つのVLMで2つの画像カプセル化実験を行い、それぞれが異なるデータセットで事前学習する。
最初の実験では、MHCGが参照不要評価の指標を一貫した改善を達成することを示した。
第2の実験では、生成されたキャプションにおける語彙の発生を観察することにより、MHCGがVLMのカテゴリレベルの語彙の共有にどのように貢献するかを検討した。
関連論文リスト
- A Chain-of-Thought Subspace Meta-Learning for Few-shot Image Captioning with Large Vision and Language Models [17.144311122664508]
大規模データに事前訓練された大規模ビジョンと言語モデルは、視覚的および言語的先行性を符号化する。
画像記述の仕方を改善するための多段階画像キャプション手法として,チェーン・オブ・シント(CoT)メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:35:43Z) - E2LVLM:Evidence-Enhanced Large Vision-Language Model for Multimodal Out-of-Context Misinformation Detection [7.1939657372410375]
E2LVLM(E2LVLM)は、2つのレベルにテキスト証拠を適応させることにより、新たなエビデンスを強化した大規模視覚言語モデルである。
判断と説明の両方でニュース領域データセットの不足に対処するため、我々は新しいOOCマルチモーダル命令追従データセットを生成する。
多数の実験により、E2LVLMは最先端の手法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-12T04:25:14Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。