論文の概要: Strengthening Multimodal Large Language Model with Bootstrapped
Preference Optimization
- arxiv url: http://arxiv.org/abs/2403.08730v1
- Date: Wed, 13 Mar 2024 17:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:07:06.297814
- Title: Strengthening Multimodal Large Language Model with Bootstrapped
Preference Optimization
- Title(参考訳): ブートストラップを用いたマルチモーダル大言語モデルの強化
選好最適化
- Authors: Renjie Pi, Tianyang Han, Wei Xiong, Jipeng Zhang, Runtao Liu, Rui Pan,
Tong Zhang
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
- 参考スコア(独自算出の注目度): 26.558671454453993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) excel in generating responses based
on visual inputs. However, they often suffer from a bias towards generating
responses similar to their pretraining corpus, overshadowing the importance of
visual information. We treat this bias as a "preference" for pretraining
statistics, which hinders the model's grounding in visual input. To mitigate
this issue, we propose Bootstrapped Preference Optimization (BPO), which
conducts preference learning with datasets containing negative responses
bootstrapped from the model itself. Specifically, we propose the following two
strategies: 1) using distorted image inputs to the MLLM for eliciting responses
that contain signified pretraining bias; 2) leveraging text-based LLM to
explicitly inject erroneous but common elements into the original response.
Those undesirable responses are paired with original annotated responses from
the datasets to construct the preference dataset, which is subsequently
utilized to perform preference learning. Our approach effectively suppresses
pretrained LLM bias, enabling enhanced grounding in visual inputs. Extensive
experimentation demonstrates significant performance improvements across
multiple benchmarks, advancing the state-of-the-art in multimodal
conversational systems.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
しかし、彼らはしばしば、事前学習したコーパスと同様の反応を生じさせ、視覚情報の重要性を誇示するバイアスに悩まされる。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
この問題を緩和するために、モデル自体からブートストラップされた負の応答を含むデータセットを用いて好みの学習を行うBootstrapped Preference Optimization (BPO)を提案する。
具体的には,以下の2つの戦略を提案する。
1) MLLMへの歪み画像入力を用いて,有意な事前学習バイアスを含む応答を抽出する。
2) テキストベースの LLM を利用して, 誤ったが共通な要素を元の応答に明示的に注入する。
これらの望ましくない応答は、データセットからのオリジナルの注釈付き応答とペアになって、好みのデータセットを構築し、その後、好みの学習を実行するために使用される。
提案手法は,事前学習したLLMバイアスを効果的に抑制し,視覚入力のグラウンド化を向上する。
大規模な実験により、複数のベンチマークで大幅な性能向上が示され、マルチモーダルな会話システムにおける最先端技術が進歩した。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [63.67157940979682]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。