論文の概要: RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback
- arxiv url: http://arxiv.org/abs/2312.00849v1
- Date: Fri, 1 Dec 2023 11:36:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:24:40.942012
- Title: RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback
- Title(参考訳): RLHF-V:きめ細かい修正ヒトフィードバックからの行動アライメントによる信頼できるMLLMを目指して
- Authors: Tianyu Yu and Yuan Yao and Haoye Zhang and Taiwen He and Yifeng Han
and Ganqu Cui and Jinyi Hu and Zhiyuan Liu and Hai-Tao Zheng and Maosong Sun
and Tat-Seng Chua
- Abstract要約: RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
- 参考スコア(独自算出の注目度): 103.08766858584049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently demonstrated
impressive capabilities in multimodal understanding, reasoning, and
interaction. However, existing MLLMs prevalently suffer from serious
hallucination problems, generating text that is not factually grounded in
associated images. The problem makes existing MLLMs untrustworthy and thus
impractical in real-world (especially high-stakes) applications. To address the
challenge, we present RLHF-V, which enhances MLLM trustworthiness via behavior
alignment from fine-grained correctional human feedback. Specifically, RLHF-V
collects human preference in the form of segment-level corrections on
hallucinations, and performs dense direct preference optimization over the
human feedback. Comprehensive experiments on five benchmarks in both automatic
and human evaluation show that, RLHF-V can enable substantially more
trustworthy MLLM behaviors with promising data and computation efficiency.
Remarkably, using 1.4k annotated data samples, RLHF-V significantly reduces the
hallucination rate of the base MLLM by 34.8%, outperforming the concurrent
LLaVA-RLHF trained on 10k annotated data. The final model achieves
state-of-the-art performance in trustworthiness among open-source MLLMs, and
shows better robustness than GPT-4V in preventing hallucinations aroused from
over-generalization. We open-source our code, model, and data at
https://github.com/RLHF-V/RLHF-V.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、最近、マルチモーダル理解、推論、相互作用において印象的な能力を示した。
しかし、既存のMLLMは深刻な幻覚に悩まされ、関連する画像に実際に根拠のないテキストを生成する。
この問題は既存のMLLMを信頼できないものにし、現実の(特に高い)アプリケーションでは実用的ではない。
この課題に対処するため,人間の微粒なフィードバックからの行動アライメントを通じてMLLMの信頼性を高めるRLHF-Vを提案する。
具体的には、RLHF-Vは幻覚のセグメントレベルの補正という形で人間の嗜好を収集し、人間のフィードバックに対して高い直接選好最適化を行う。
自動評価と人間評価の両方における5つのベンチマークに関する包括的実験により、rlhf-vは有望なデータと計算効率で、より信頼性の高いmllm動作を可能にすることが示された。
注目すべきは、1.4kのアノテートデータサンプルを使用することで、RLHF-VはベースMLLMの幻覚率を34.8%削減し、10kのアノテートデータでトレーニングされた同時LLaVA-RLHFを上回る。
最終モデルは、オープンソースのMLLM間の信頼性の最先端性能を達成し、過剰な一般化による幻覚の予防において、GPT-4Vよりも優れた堅牢性を示す。
我々は、コード、モデル、データをhttps://github.com/RLHF-V/RLHF-Vでオープンソース化します。
関連論文リスト
- Continual SFT Matches Multimodal RLHF with Negative Supervision [32.784161582943874]
マルチモーダルRLHFは通常、視覚言語モデル(VLM)の理解を継続的に改善するために、教師付き微調整(SFT)段階の後に起こる。
従来の知恵は、この選好アライメント段階における連続SFTよりも優越性を持っている。
本稿では,これらの情報を完全に発掘する新しい否定教師あり微調整(nSFT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T08:48:30Z) - Language Models Learn to Mislead Humans via RLHF [100.95201965748343]
言語モデル(LM)は、特にタスクが複雑である場合に、人間にとって検出が難しいエラーを生成する。
我々はこの現象を標準のRLHFパイプラインで研究し、モデル開発者が意図していないことから「U-SOPHISTRY」と呼ぶ。
我々の研究は、RLHFの重要な障害モードを強調し、人間の調整を支援するためのさらなる研究を求めている。
論文 参考訳(メタデータ) (2024-09-19T14:50:34Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness [94.03511733306296]
我々は,MLLMを超GPT-4V信頼性のための完全なオープンソースパラダイムに整合させるフレームワークであるRLAIF-Vを紹介する。
RLAIF-Vは、高品質なフィードバックデータとオンラインフィードバック学習アルゴリズムを含む、2つの観点から、オープンソースフィードバックを最大限活用する。
実験により、RLAIF-Vは、他のタスクのパフォーマンスを犠牲にすることなく、モデルの信頼性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback [86.87638927637005]
ChatGLMは、大規模言語モデル(LLM)を利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
論文 参考訳(メタデータ) (2024-04-01T05:39:36Z) - Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large
Language Models [84.78513908768011]
MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。
MRAは解像度の異なる画像に対して2つの視覚経路を採用し、高解像度の視覚情報を低解像度の経路に埋め込む。
MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。
論文 参考訳(メタデータ) (2024-03-05T14:31:24Z) - Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。
テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。
本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。
提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-09-25T20:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。