論文の概要: OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
- arxiv url: http://arxiv.org/abs/2502.18411v1
- Date: Tue, 25 Feb 2025 18:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:08.198417
- Title: OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference
- Title(参考訳): OmniAlign-V:人間の選好によるMLLMのアライメント向上を目指して
- Authors: Xiangyu Zhao, Shengyuan Ding, Zicheng Zhang, Haian Huang, Maosong Cao, Weiyun Wang, Jiaqi Wang, Xinyu Fang, Wenhai Wang, Guangtao Zhai, Haodong Duan, Hua Yang, Kai Chen,
- Abstract要約: オープンソースのマルチモーダル大規模言語モデル(MLLM)の最近の進歩は,基礎的能力の向上に重点を置いている。
OmniAlign-Vは,多彩な画像,複雑な質問,さまざまな応答形式を含む200Kの高品質なトレーニングサンプルのデータセットである。
実験の結果,OmniAlign-Vを用いたMLLMの微調整は,SFT(Supervised Fine-Tuning)やDPO(Direct Preference Optimization)を用いることで,人間の嗜好のアライメントを著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 80.36831779302148
- License:
- Abstract: Recent advancements in open-source multi-modal large language models (MLLMs) have primarily focused on enhancing foundational capabilities, leaving a significant gap in human preference alignment. This paper introduces OmniAlign-V, a comprehensive dataset of 200K high-quality training samples featuring diverse images, complex questions, and varied response formats to improve MLLMs' alignment with human preferences. We also present MM-AlignBench, a human-annotated benchmark specifically designed to evaluate MLLMs' alignment with human values. Experimental results show that finetuning MLLMs with OmniAlign-V, using Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO), significantly enhances human preference alignment while maintaining or enhancing performance on standard VQA benchmarks, preserving their fundamental capabilities. Our datasets, benchmark, code and checkpoints have been released at https://github.com/PhoenixZ810/OmniAlign-V.
- Abstract(参考訳): オープンソースのマルチモーダル大規模言語モデル(MLLM)の最近の進歩は、人間の嗜好の整合性に大きなギャップを残し、基礎的能力の向上に重点を置いている。
OmniAlign-Vは、多彩な画像、複雑な質問、さまざまな応答形式を含む200Kの高品質なトレーニングサンプルの包括的なデータセットで、MLLMと人間の嗜好との整合性を改善する。
また,MM-AlignBenchは,MLLMと人的価値との整合性を評価するために特別に設計された,人間による注釈付きベンチマークである。
実験の結果,OmniAlign-V を用いた MLLM の微調整は,標準的な VQA ベンチマークの性能を維持したり向上させたりしながら,人間の嗜好の調整を著しく向上し,基本的能力を保っていることがわかった。
データセット、ベンチマーク、コード、チェックポイントがhttps://github.com/PhoenixZ810/OmniAlign-Vでリリースされた。
関連論文リスト
- MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning [17.59802090014789]
視覚言語モデル(VLM)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。
提案手法はVLMを利用して初期選好ラベルを生成する。
メタワールド操作タスクの実験は、PrefVLMが最先端の手法に匹敵する成功率または優れた成功率を達成することを示した。
論文 参考訳(メタデータ) (2025-02-03T18:50:15Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling [34.32744849352087]
本研究では,人間の好みに合わせて,大規模言語モデルを逐次微調整する手法を提案する。
理論的には閉形式最適SPOポリシーと損失関数を導出する。
異なる大きさのLLMと複数の評価データセットの実証結果から、SPOはLLMを人間の嗜好の多次元にわたって整列させることに成功した。
論文 参考訳(メタデータ) (2024-05-21T12:47:17Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。