論文の概要: Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17826v1
- Date: Fri, 23 May 2025 12:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.070322
- Title: Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
- Title(参考訳): Trinity-RFT:大規模言語モデルの微調整のための汎用的で統一的なフレームワーク
- Authors: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計されたフレームワークである。
RFT-coreは同期/非同期、オンライン/オフライン、RTTのオンライン/オフラインモードを統一・一般化する。
- 参考スコア(独自算出の注目度): 67.21197656608324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trinity-RFT is a general-purpose, flexible and scalable framework designed for reinforcement fine-tuning (RFT) of large language models. It is built with a decoupled design, consisting of (1) an RFT-core that unifies and generalizes synchronous/asynchronous, on-policy/off-policy, and online/offline modes of RFT, (2) seamless integration for agent-environment interaction with high efficiency and robustness, and (3) systematic data pipelines optimized for RFT. Trinity-RFT can be easily adapted for diverse application scenarios, and serves as a unified platform for exploring advanced reinforcement learning paradigms. This technical report outlines the vision, features, design and implementations of Trinity-RFT, accompanied by extensive examples demonstrating the utility and user-friendliness of the proposed framework.
- Abstract(参考訳): Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計された汎用的でフレキシブルでスケーラブルなフレームワークである。
1)同期・非同期・オン・ポリティクス・オンライン・オフラインモードを統一・一般化するRTTコアと,(2)エージェント環境と高効率・堅牢性とのシームレスな連携,(3)RFTに最適化された系統的なデータパイプラインから構成される。
Trinity-RFTは多様なアプリケーションシナリオに容易に適応でき、高度な強化学習パラダイムを探求するための統一されたプラットフォームとして機能する。
本稿では,Trinity-RFTのビジョン,特徴,設計,実装について概説する。
関連論文リスト
- UFT: Unifying Supervised and Reinforcement Fine-Tuning [21.195897792629548]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z) - Patchwork: A Unified Framework for RAG Serving [6.430565435912026]
Retrieval Augmented Generation (RAG) は、外部知識ソースとの統合による大規模言語モデルの信頼性向上のための新しいパラダイムとして登場した。
Patchworkは、これらの効率のボトルネックに対処するために設計された、包括的なエンドツーエンドのRAGサービスフレームワークです。
論文 参考訳(メタデータ) (2025-05-01T18:58:26Z) - F-INR: Functional Tensor Decomposition for Implicit Neural Representations [7.183424522250937]
Implicit Representation (INR) は、ニューラルネットワークを用いて離散信号を連続的に微分可能な関数に符号化する強力なツールとして登場した。
機能的分解によりINR学習を再構築し,高次元タスクを軽量な軸特化サブネットワークに分割するフレームワークF-INRを提案する。
論文 参考訳(メタデータ) (2025-03-27T13:51:31Z) - TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data [0.42881773214459123]
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
論文 参考訳(メタデータ) (2025-01-21T10:06:19Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。