論文の概要: Visual Instruction Tuning with Polite Flamingo
- arxiv url: http://arxiv.org/abs/2307.01003v1
- Date: Mon, 3 Jul 2023 13:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:00:49.178752
- Title: Visual Instruction Tuning with Polite Flamingo
- Title(参考訳): Polite Flamingoによるビジュアルインストラクションチューニング
- Authors: Delong Chen, Jianfeng Liu, Wenliang Dai, Baoyuan Wang
- Abstract要約: Polite Flamingoは、生のアノテーションをより魅力的な"ポリテ"フォーマットに変換するマルチモーダル応答リライタである。
得られたモデルであるClever Flamingoは、自動的および人的評価に従って、マルチモーダルな理解と応答の丁寧さの両方において、その利点を示す。
- 参考スコア(独自算出の注目度): 15.256150172933367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has demonstrated that the multi-task fine-tuning of
multi-modal Large Language Models (LLMs) using an assortment of annotated
downstream vision-language datasets significantly enhances their performance.
Yet, during this process, a side effect, which we termed as the "multi-modal
alignment tax", surfaces. This side effect negatively impacts the model's
ability to format responses appropriately -- for instance, its "politeness" --
due to the overly succinct and unformatted nature of raw annotations, resulting
in reduced human preference. In this paper, we introduce Polite Flamingo, a
multi-modal response rewriter that transforms raw annotations into a more
appealing, "polite" format. Polite Flamingo is trained to reconstruct
high-quality responses from their automatically distorted counterparts and is
subsequently applied to a vast array of vision-language datasets for response
rewriting. After rigorous filtering, we generate the PF-1M dataset and further
validate its value by fine-tuning a multi-modal LLM with it. Combined with
novel methodologies including U-shaped multi-stage tuning and multi-turn
augmentation, the resulting model, Clever Flamingo, demonstrates its advantages
in both multi-modal understanding and response politeness according to
automated and human evaluations.
- Abstract(参考訳): 近年の研究では、注釈付き下流視覚言語データセットを用いたマルチモーダル大規模言語モデル(LLM)のマルチタスク微調整により、その性能が著しく向上することが示されている。
しかし、この過程において、我々は「マルチモーダルアライメント税(multi-modal alignment tax)」と呼ばれる副作用が表面化している。
この副作用は、モデルの応答を適切にフォーマットする能力に悪影響を及ぼします -- 例えば、その"政治性"は、生のアノテーションの過度に簡潔で非形式的な性質のためです。
本稿では,生のアノテーションをより魅力的な "ポリテ" 形式に変換するマルチモーダル応答リライトである polite flamingo を紹介する。
Polite Flamingoは、自動的に歪んだ応答から高品質な応答を再構築するように訓練され、その後、応答書き換えのために多数の視覚言語データセットに適用される。
厳密なフィルタリングの後、PF-1Mデータセットを生成し、マルチモーダルLCMを微調整することでその価値をさらに検証する。
U字型マルチステージチューニングやマルチターン強化といった新しい手法と組み合わせて、結果のモデルであるClever Flamingoは、自動評価と人的評価によるマルチモーダル理解と応答の丁寧さの両方において、その利点を実証する。
関連論文リスト
- A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs [34.71750379630014]
トピックレベルの幻覚を緩和するために,モデル自体をガイドする自己修正的アプローチであるトピックレベルの優先上書き(TPO)を導入する。
以上の結果から,TPOは信頼性の最先端性を達成し,対象幻覚の92%,全体幻覚の38%を著しく低減した。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - i-SRT: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective Judgment [36.69910114305134]
反応生成と選好モデリングの両方を強化するために,自己ふりかえりを用いた新しい手法を提案する。
多様なビデオ質問応答ベンチマークによる経験的評価は,i-SRTが先行技術よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-06-17T07:33:30Z) - Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization [25.290462963681257]
MLLM(Multimodal Large Language Models)は、視覚的な入力に基づいて応答を生成する。
彼らはしばしば、事前学習したコーパスと同様の反応を生み出すバイアスに悩まされ、視覚情報の重要性を誇示する。
我々は、このバイアスを事前学習統計のための"推奨"として扱い、視覚入力におけるモデルの基盤を妨げます。
論文 参考訳(メタデータ) (2024-03-13T17:29:45Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Lightweight In-Context Tuning for Multimodal Unified Models [57.10831399642176]
MultiModal In-conteXt Tuning (M$2$IXT)は、マルチモーダル統一モデルのICL機能を強化する軽量モジュールである。
最大50Kのマルチモーダルデータをチューニングすると、M$2$IXTは数ショットのICL性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-08T10:47:24Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Removing Bias in Multi-modal Classifiers: Regularization by Maximizing
Functional Entropies [88.0813215220342]
いくつかのモダリティは、他のものよりも分類結果に容易に寄与することができる。
機能的エントロピーと機能的フィッシャー情報とを結合した対数ソボレフの不等式に基づく手法を開発した。
VQA-CPv2 と SocialIQ の2つの挑戦的マルチモーダルデータセットに対して,より均一にモダリティを活用しながら,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-10-21T07:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。