論文の概要: Continual SFT Matches Multimodal RLHF with Negative Supervision
- arxiv url: http://arxiv.org/abs/2411.14797v1
- Date: Fri, 22 Nov 2024 08:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:49.543243
- Title: Continual SFT Matches Multimodal RLHF with Negative Supervision
- Title(参考訳): 連続SFTは負のスーパービジョンとマルチモーダルRLHFを一致させる
- Authors: Ke Zhu, Yu Wang, Yanpeng Sun, Qiang Chen, Jiangjiang Liu, Gang Zhang, Jingdong Wang,
- Abstract要約: マルチモーダルRLHFは通常、視覚言語モデル(VLM)の理解を継続的に改善するために、教師付き微調整(SFT)段階の後に起こる。
従来の知恵は、この選好アライメント段階における連続SFTよりも優越性を持っている。
本稿では,これらの情報を完全に発掘する新しい否定教師あり微調整(nSFT)手法を提案する。
- 参考スコア(独自算出の注目度): 32.784161582943874
- License:
- Abstract: Multimodal RLHF usually happens after supervised finetuning (SFT) stage to continually improve vision-language models' (VLMs) comprehension. Conventional wisdom holds its superiority over continual SFT during this preference alignment stage. In this paper, we observe that the inherent value of multimodal RLHF lies in its negative supervision, the logit of the rejected responses. We thus propose a novel negative supervised finetuning (nSFT) approach that fully excavates these information resided. Our nSFT disentangles this negative supervision in RLHF paradigm, and continually aligns VLMs with a simple SFT loss. This is more memory efficient than multimodal RLHF where 2 (e.g., DPO) or 4 (e.g., PPO) large VLMs are strictly required. The effectiveness of nSFT is rigorously proved by comparing it with various multimodal RLHF approaches, across different dataset sources, base VLMs and evaluation metrics. Besides, fruitful of ablations are provided to support our hypothesis. We hope this paper will stimulate further research to properly align large vision language models.
- Abstract(参考訳): マルチモーダルRLHFは通常、視覚言語モデル(VLM)の理解を継続的に改善するために、教師付き微調整(SFT)段階の後に起こる。
従来の知恵は、この選好アライメント段階における連続SFTよりも優越性を持っている。
本稿では、マルチモーダルRLHFの固有値は、その負の監督、拒絶された応答のロジットにあることを観察する。
そこで本研究では,これらの情報を完全に発掘する新しい否定教師あり微調整(nSFT)手法を提案する。
我々のnSFTは、RLHFパラダイムにおいてこの負の監督を混乱させ、VLMを単純なSFT損失と継続的に整合させる。
これは、2 (e g , DPO) または 4 (e g , PPO) の大きな VLM が厳密に要求されるマルチモーダル RLHF よりもメモリ効率がよい。
nSFTの有効性は、異なるデータセットソース、ベースVLM、評価指標を含む様々なマルチモーダルRLHFアプローチと比較することによって、厳密に証明されている。
さらに、私たちの仮説を支持するために、無言の成果が提供されます。
本稿では,大規模視覚言語モデルを適切に整合させるため,さらなる研究の促進を期待する。
関連論文リスト
- Iterative Label Refinement Matters More than Preference Optimization under Weak Supervision [34.594109869213014]
我々は、小さな言語モデルと人間を用いて、信頼できないデモンストレーションと比較フィードバックをシミュレートする。
信頼性の低い監視が存在する場合、SFTは依然として有効性を維持するが、DPO(共通RLHFアルゴリズム)はSFT以外のモデルの改善に失敗する。
以上の結果から,LMは人間の監督が信頼できない複雑なタスクに使用されるため,RLHFはもはや人間の比較フィードバックの最良の利用ではない可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-14T06:54:17Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - Understanding the Effects of RLHF on LLM Generalisation and Diversity [26.56388427640671]
人間のフィードバック(RLHF)からの強化学習によって微調整された大規模言語モデル(LLM)は、これまで最も広くデプロイされたAIモデルの一部で使用されている。
プロセスの各段階が2つの重要な特性、すなわちアウト・オブ・ディストリビューション(OOD)の一般化と出力の多様性にどのように影響するかを解析する。
論文 参考訳(メタデータ) (2023-10-10T09:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。