論文の概要: RLLaVA: An RL-central Framework for Language and Vision Assistants
- arxiv url: http://arxiv.org/abs/2512.21450v1
- Date: Thu, 25 Dec 2025 00:09:02 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:07:17.691212
- Title: RLLaVA: An RL-central Framework for Language and Vision Assistants
- Title(参考訳): RLLaVA: 言語とビジョンアシスタントのためのRL分散フレームワーク
- Authors: Lei Zhao, Zihao Ma, Boyu Lin, Yuhe Liu, Wenjun Wu, Lei Huang,
- Abstract要約: マルコフ決定過程(MDP)を定式化した言語・視覚アシスタント(RLLaVA)のためのRL分散フレームワークを提案する。
RLLaVAはモデルアーキテクチャと分散実行からRLアルゴリズムロジックを分離し、研究者が最小限のコードで新しいRLアルゴリズムを実装するのをサポートする。
- 参考スコア(独自算出の注目度): 12.539656504139716
- License:
- Abstract: We present an RL-central framework for Language and Vision Assistants (RLLaVA) with its formulation of Markov decision process (MDP). RLLaVA decouples RL algorithmic logic from model architecture and distributed execution, supporting researchers in implementing new RL algorithms with minimal code, and to plug in a broad family of RL methods and vision-language models (VLMs) while remaining agnostic to specific training and inference engines. RLLaVA makes resource-efficient training of 1B--7B models feasible on common GPUs; notably, 4B-scale models can be trained end-to-end with full-parameter updates on a single 24GB GPU. Experiments on multi-modal and agentic tasks demonstrate that RLLaVA has task extensibility, and the models trained with it consistently improve performance over base models, competitive with other specially engineered RL frameworks. The code is available at https://github.com/TinyLoopX/RLLaVA.
- Abstract(参考訳): 本稿では、マルコフ決定過程(MDP)を定式化した言語・視覚アシスタント(RLLaVA)のためのRL分散フレームワークを提案する。
RLLaVAは、モデルアーキテクチャと分散実行からRLアルゴリズムロジックを分離し、研究者が最小限のコードで新しいRLアルゴリズムを実装するのを支援し、特定のトレーニングと推論エンジンに依存しないまま、広範囲のRLメソッドとビジョン言語モデル(VLM)をプラグインする。
RLLaVAは、一般的なGPU上で1B--7Bモデルのリソース効率のトレーニングを可能にする。
マルチモーダルおよびエージェントタスクの実験では、RLLaVAはタスク拡張性を持ち、トレーニングされたモデルはベースモデルよりもパフォーマンスを継続的に改善し、他の特別に設計されたRLフレームワークと競合することを示した。
コードはhttps://github.com/TinyLoopX/RLLaVAで公開されている。
関連論文リスト
- SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - RLLTE: Long-Term Evolution Project of Reinforcement Learning [45.88099757610731]
本稿では,RLLTEについて紹介する。RLLTEは長期的進化であり,高度にモジュール化された,強化学習(RL)研究と応用のためのオープンソースフレームワークである。
トップノーチアルゴリズムの実装を提供するだけでなく、RLLTEはアルゴリズム開発のためのツールキットとしても機能する。
RLLTEは、RLエンジニアリングの基準を設定し、産業や学界に高い刺激を与えると期待されている。
論文 参考訳(メタデータ) (2023-09-28T12:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。