論文の概要: EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation
- arxiv url: http://arxiv.org/abs/2412.04903v2
- Date: Mon, 16 Dec 2024 13:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:32.085980
- Title: EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation
- Title(参考訳): EACO: 臨界観測による多モードLCMのアライメント向上
- Authors: Yongxin Wang, Meng Cao, Haokun Lin, Mingfei Han, Liang Ma, Jin Jiang, Yuhao Cheng, Xiaodan Liang,
- Abstract要約: 臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
- 参考スコア(独自算出の注目度): 58.546205554954454
- License:
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress on various visual question answering and reasoning tasks leveraging instruction fine-tuning specific datasets. They can also learn from preference data annotated by human to enhance their reasoning ability and mitigate hallucinations. Most of preference data is generated from the model itself. However, existing methods require high-quality critical labels, which are costly and rely on human or proprietary models like GPT-4V. In this work, we propose Enhancing Alignment in MLLMs via Critical Observation (EACO), which aligns MLLMs by self-generated preference data using only 5k images economically. Our approach begins with collecting and refining a Scoring Evaluation Instruction-tuning dataset to train a critical evaluation model, termed the Critic. This Critic observes model responses across multiple dimensions, selecting preferred and non-preferred outputs for refined Direct Preference Optimization (DPO) tuning. To further enhance model performance, we employ an additional supervised fine-tuning stage after preference tuning. EACO reduces the overall hallucinations by 65.6% on HallusionBench and improves the reasoning ability by 21.8% on MME-Cognition. EACO achieves an 8.5% improvement over LLaVA-v1.6-Mistral-7B across multiple benchmarks. Remarkably, EACO also shows the potential critical ability in open-source MLLMs, demonstrating that EACO is a viable path to boost the competence of MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な視覚的質問応答や推論タスクにおいて、特定のデータセットを微調整する命令を活用することで、顕著な進歩を遂げている。
また、人間によって注釈付けされた嗜好データから学習し、推論能力を高め、幻覚を緩和することもできる。
好みデータのほとんどは、モデル自体から生成される。
しかし、既存の手法では、GPT-4Vのような人間やプロプライエタリなモデルに依存してコストがかかる高品質なクリティカルラベルが必要である。
本研究では,5k画像のみを経済的に利用して,MLLMを自己生成した選好データで整列させる,EACOによるMLLMのアライメント向上を提案する。
我々のアプローチは、批判的評価モデル(Critical Evaluation Model)をトレーニングするために、Scoring Evaluation Instruction-tuningデータセットの収集と修正から始まります。
この批判は、複数の次元にわたるモデル応答を観察し、洗練された直接選好最適化(DPO)チューニングのために好まれない出力を選択する。
モデル性能をさらに高めるため、選好調整後に教師付き微調整ステージを新たに導入する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
EACOは複数のベンチマークでLLaVA-v1.6-Mistral-7Bよりも8.5%改善されている。
注目すべきは、EACOがオープンソースMLLMの潜在的なクリティカルな能力を示し、EACOがMLLMの能力を高めるための実行可能な道であることを示すことである。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。