論文の概要: Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models
- arxiv url: http://arxiv.org/abs/2410.00363v1
- Date: Tue, 1 Oct 2024 03:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:06:43.703448
- Title: Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models
- Title(参考訳): 多モーダル言語モデルにおける類似合成の可能性の解き放つ
- Authors: Shitian Zhao, Renrui Zhang, Xu Luo, Yan Wang, Shanghang Zhang, Peng Gao,
- Abstract要約: ヘテロジニアスモデルをオフザシェルで融合することを目的としたポストホックフレームワークを提案する。
基本的考え方は、多点探索探索タスクを行う場合、複数のモデルの確率分布を構成することである。
単純なtextitensemble や textitmajority-vote 法と比較して,textitmix-composition の有効性を実証する。
- 参考スコア(独自算出の注目度): 36.89901048481335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model fusing has always been an important topic, especially in an era where large language models (LLM) and multi-modal language models (MLM) with different architectures, parameter sizes and training pipelines, are being created all the time. In this work, we propose a post-hoc framework, aiming at fusing heterogeneous models off-the-shell, which we call \textit{likelihood composition}, and the basic idea is to compose multiple models' likelihood distribution when doing a multi-choice visual-question-answering task. Here the core concept, \textit{likelihood}, is actually the log-probability of the candidate answer. In \textit{likelihood composition}, we introduce some basic operations: \textit{debias}, \textit{highlight}, \textit{majority-vote} and \textit{ensemble}. By combining (composing) these basic elements, we get the mixed composition methods: \textit{mix-composition}. Through conducting comprehensive experiments on 9 VQA datasets and 10 MLMs, we prove the effectiveness of \textit{mix-composition} compared with simple \textit{ensemble} or \textit{majority-vote} methods. In this framework, people can propose new basic composition methods and combine them to get the new mixed composition methods. We hope our proposed \textit{likelihood composition} can provide a new perspective of fusing heterogeneous models and inspire the exploration under this framework.
- Abstract(参考訳): 特に大規模言語モデル (LLM) とマルチモーダル言語モデル (MLM) が異なるアーキテクチャ、パラメータサイズ、トレーニングパイプラインが常に作成されている時代において、モデルの融合は常に重要なトピックである。
本研究では,異種モデルをオフザシェルで融合することを目的としたポストホック・フレームワークを提案し,その基本的な考え方は,マルチチョイスな視覚探索探索タスクを行う際に,複数のモデルの確率分布を構成することである。
ここで、中核となる概念である \textit{likelihood} は、実際には候補の答えのログ確率である。
textit{likelihood composition} では、基本的な操作をいくつか導入する: \textit{debias}, \textit{highlight}, \textit{majority-vote}, \textit{ensemble}。
これらの基本要素を(合成)組み合わせることで、混合合成法が得られます。
9つのVQAデータセットと10個のMLMに関する総合的な実験を行うことで、単純な \textit{ensemble} や \textit{majority-vote} の手法と比較して、 \textit{mix-composition} の有効性を証明した。
このフレームワークでは、新しい基本合成法を提案し、それらを組み合わせて新しい混合合成法を得ることができる。
提案した「textit{likelihood composition」は、異種モデルを融合させ、この枠組みの下での探索を刺激する新しい視点を提供することを願っている。
関連論文リスト
- Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation [45.79215260916687]
textbf$M2Chat$は、インターリーブされたテキストイメージの会話を生成するための新しい統合マルチモーダルLLMフレームワークである。
M3Adapter$は、マルチモーダルプロンプトから、粒度の低い視覚情報と高レベルのセマンティック機能を統合する。
M3FT$ fine-tuning strategy イメージテキストアライメントとビジュアルインストラクションのために、パラメータの分離したグループを最適化する。
論文 参考訳(メタデータ) (2023-11-29T11:30:33Z) - Efficient and Flexible Topic Modeling using Pretrained Embeddings and
Bag of Sentences [1.8592384822257952]
本稿では,新しいトピックモデリングと推論アルゴリズムを提案する。
我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。
The Tailor の評価は,本手法が比較的少ない計算要求で最先端の成果をもたらすことを示している。
論文 参考訳(メタデータ) (2023-02-06T20:13:11Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - CM3: A Causal Masked Multimodal Model of the Internet [86.32652030161374]
構造化マルチモーダル文書の大規模コーパス上で訓練された因果マスク付き生成モデルのファミリーであるCM3を紹介する。
我々は、大規模ウェブやウィキペディアの記事で因果的にマスキングされた言語イメージモデルを訓練する。
CM3モデルは、任意のマスキングされた文書コンテキストを条件にしながら、リッチな構造化されたマルチモーダル出力を生成することができる。
論文 参考訳(メタデータ) (2022-01-19T10:45:38Z) - DocStruct: A Multimodal Method to Extract Hierarchy Structure in
Document for General Form Understanding [15.814603044233085]
我々は、最も基本的なコンポーネント、キーと値のペアに焦点を合わせ、特徴抽出にマルチモーダル手法を採用する。
我々は、最先端モデルとターゲット抽出モジュールを用いて、マルチモーダルな特徴を抽出する。
結合と特徴シフトのハイブリッド融合法は、異種特徴を融合させ、情報的関節表現を提供するように設計されている。
論文 参考訳(メタデータ) (2020-10-15T08:54:17Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。