論文の概要: RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
- arxiv url: http://arxiv.org/abs/2506.18369v1
- Date: Mon, 23 Jun 2025 07:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.897647
- Title: RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
- Title(参考訳): RePIC:マルチモーダル言語モデルのパーソナライズのための強化後トレーニング
- Authors: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon,
- Abstract要約: イメージキャプションをパーソナライズするための強化学習に基づくポストトレーニングフレームワークを提案する。
本手法は,MLLMの視覚認識能力とパーソナライズ機能の両方を大幅に向上させる。
- 参考スコア(独自算出の注目度): 29.471762181109018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multi-modal large language models (MLLMs) often struggle to generate personalized image captions, even when trained on high-quality captions. In this work, we observe that such limitations persist in existing post-training-based MLLM personalization methods. Specifically, despite being post-tuned with large-scale caption data through supervised fine-tuning (SFT), these models frequently fail to produce faithful descriptions in real-world scenarios, such as multi-concept image captioning. However, acquiring large-scale, high-quality captions for such complex settings is both costly and difficult. To address the data-centric nature of SFT, we propose a reinforcement learning (RL)-based post-training framework. To the best of our knowledge, this is the first RL-based approach to post-train MLLMs for personalized image captioning. Our method significantly enhances both visual recognition and personalized generation capabilities of MLLMs, and consistently outperforms existing SFT-based baselines, especially in the challenging multi-concept image captioning task.
- Abstract(参考訳): 最近のマルチモーダル大言語モデル(MLLM)は、高品質なキャプションで訓練しても、パーソナライズされた画像キャプションを生成するのに苦労することが多い。
本研究では,既存の学習後MLLMパーソナライズ手法において,このような制限が持続していることを確認する。
具体的には、教師付き微調整(SFT)による大規模なキャプションデータで訓練後、これらのモデルは、マルチコンセプト画像キャプションのような現実のシナリオにおいて忠実な記述をしばしば生成しない。
しかし、このような複雑な設定のために、大規模で高品質なキャプションを取得することは、費用がかかり難い。
SFTのデータ中心性に対処するために,強化学習(RL)に基づくポストトレーニングフレームワークを提案する。
我々の知る限り、これはパーソナライズされた画像キャプションのための訓練後のMLLMに対する最初のRLベースのアプローチである。
本手法は,MLLMの視覚認識とパーソナライズ機能の両方を大幅に向上させ,既存のSFTベースライン,特に難易度の高いマルチコンセプト画像キャプションタスクにおいて,一貫した性能向上を実現している。
関連論文リスト
- Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文 参考訳(メタデータ) (2025-01-05T14:09:12Z) - Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Linear Alignment of Vision-language Models for Image Captioning [8.921774238325566]
本稿では,ReCapと呼ばれる軽量キャプション手法を提案する。
また,CLIPスコアに基づく2つの新しい学習ベース画像キャプチャーメトリクスと,提案したアライメントを提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。