論文の概要: Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution
- arxiv url: http://arxiv.org/abs/2412.15650v1
- Date: Fri, 20 Dec 2024 08:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:18.555421
- Title: Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution
- Title(参考訳): 人間のデータを超えて - 反復的自己進化による多モーダルな言語モデルの調整
- Authors: Wentao Tan, Qiong Cao, Yibing Zhan, Chao Xue, Changxing Ding,
- Abstract要約: 本稿では,高品質な質問や回答を自律的に生成することのできる,新しい多モード自己進化フレームワークを提案する。
まず、画像駆動型セルフクエスト機構を実装し、画像コンテンツに基づいた質問の作成と評価を可能にする。
第2に,画像キャプションから答えの質を向上させるための自己改善手法を提案する。
- 参考スコア(独自算出の注目度): 43.07899102255169
- License:
- Abstract: Human preference alignment can greatly enhance Multimodal Large Language Models (MLLMs), but collecting high-quality preference data is costly. A promising solution is the self-evolution strategy, where models are iteratively trained on data they generate. However, current techniques still rely on human- or GPT-annotated data and sometimes require additional models or ground truth answers. To address these issues, we propose a novel multimodal self-evolution framework that enables the model to autonomously generate high-quality questions and answers using only unannotated images. First, we implement an image-driven self-questioning mechanism, allowing the model to create and evaluate questions based on image content, regenerating them if they are irrelevant or unanswerable. This sets a strong foundation for answer generation. Second, we introduce an answer self-enhancement technique, starting with image captioning to improve answer quality. We also use corrupted images to generate rejected answers, forming distinct preference pairs for optimization. Finally, we incorporate an image content alignment loss function alongside Direct Preference Optimization (DPO) loss to reduce hallucinations, ensuring the model focuses on image content. Experiments show that our framework performs competitively with methods using external information, offering a more efficient and scalable approach to MLLMs.
- Abstract(参考訳): 人間の嗜好アライメントはMLLM(Multimodal Large Language Models)を大幅に向上させるが、高品質な嗜好データ収集にはコストがかかる。
有望な解決策は自己進化戦略であり、モデルが生成したデータに対して反復的にトレーニングされる。
しかし、現在の技術は人間やGPTに注釈付けされたデータに依存しており、時には追加のモデルや根拠となる真実の答えを必要としている。
これらの問題に対処するために,無注釈画像のみを用いて,モデルが自律的に高品質な質問や回答を生成可能な,新しいマルチモーダル自己進化フレームワークを提案する。
まず、画像駆動型セルフクエスト機構を実装し、画像コンテンツに基づいた質問の作成と評価を可能にし、それらが無関係である場合、あるいは解決不可能である場合、それらを再生する。
これは回答生成の強力な基盤となる。
第2に,画像キャプションから答えの質を向上させるための自己改善手法を提案する。
また、劣化した画像を用いて解答を生成し、最適化のために異なる選好ペアを形成する。
最後に、画像コンテンツアライメント損失関数と、直接参照最適化(DPO)損失を併用して幻覚を低減し、モデルが画像コンテンツにフォーカスすることを保証する。
実験の結果,我々のフレームワークは外部情報を用いた手法と競合し,MLLMに対してより効率的でスケーラブルなアプローチを提供することがわかった。
関連論文リスト
- MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Self-Enhancement Improves Text-Image Retrieval in Foundation
Visual-Language Models [33.008325765051865]
クロスモーダル基盤モデルは、ドメイン固有の検索タスクに必要な重要な属性に焦点を合わせない。
本稿では,CLIP-ViT/G-14をベースとした自己拡張フレームワークA3Rを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:25:38Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。