論文の概要: Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17826v2
- Date: Mon, 14 Jul 2025 12:02:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:07.237244
- Title: Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
- Title(参考訳): Trinity-RFT:大規模言語モデルの微調整のための汎用的で統一的なフレームワーク
- Authors: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Weijie Shi, Yaliang Li, Bolin Ding, Jingren Zhou,
- Abstract要約: Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計された汎用的で統一的で使いやすいフレームワークである。
RFT-coreは、同期/非同期、オンライン/オフライン、RTTのオンライン/オフラインモードを統一・一般化する。
- 参考スコア(独自算出の注目度): 65.90917869715258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trinity-RFT is a general-purpose, unified and easy-to-use framework designed for reinforcement fine-tuning (RFT) of large language models. It is built with a modular and decoupled design, consisting of (1) an RFT-core that unifies and generalizes synchronous/asynchronous, on-policy/off-policy, and online/offline modes of RFT; (2) seamless integration for agent-environment interaction with high efficiency and robustness; and (3) systematic data pipelines optimized for RFT. Trinity-RFT can be easily adapted for diverse application scenarios, and serves as a unified platform for development and research of advanced reinforcement learning paradigms at both macroscopic and microscopic levels. This technical report outlines the vision, features, design and implementations of Trinity-RFT, accompanied by extensive examples, applications and experiments that demonstrate its functionalities and user-friendliness.
- Abstract(参考訳): Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計された汎用的で統一的で使いやすいフレームワークである。
RFTの同期・非同期・オン・ポリティクス・オンライン・オフラインモードを統一・一般化するRFTコアと、高効率・堅牢性を備えたエージェント環境連携のためのシームレスな統合と、RFT向けに最適化された体系的なデータパイプラインとから構成される。
Trinity-RFTは多様な応用シナリオに容易に適応でき、マクロと顕微鏡の両方の高度な強化学習パラダイムの開発と研究のための統一的なプラットフォームとして機能する。
本稿では,Trinity-RFTのビジョン,機能,設計,実装について概説する。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations [7.21760093645833]
Inlicit Neural Representation (INR)は、データを連続関数としてエンコードするために広く使われている。
既存のINRベースの手法では,(1)複素構造の非フレキシブル表現,(2)主に単変数データ,(3)構造格子への依存の3つの制限に直面している。
論文 参考訳(メタデータ) (2025-07-03T09:55:57Z) - Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Multi-Modal Multi-Task Federated Foundation Models for Next-Generation Extended Reality Systems: Towards Privacy-Preserving Distributed Intelligence in AR/VR/MR [12.109032063788417]
我々は,マルチモーダルマルチタスク(M3T)フェデレーション基盤モデル(FedFM)が,XRシステムに変換機能を提供することを想定する。
モデルトレーニングとアグリゲーションのための異なる調整パラダイムを必要とするFedFMのモジュラーアーキテクチャを提案する。
この視点は、次世代のXRシステムにおいて、コンテキスト対応のプライバシ保護インテリジェンスのための技術的および概念的な基礎をグラフ化することを目的としている。
論文 参考訳(メタデータ) (2025-06-06T02:23:42Z) - cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning [41.24641565316878]
3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
論文 参考訳(メタデータ) (2025-05-28T22:32:31Z) - UFT: Unifying Supervised and Reinforcement Fine-Tuning [21.195897792629548]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z) - Patchwork: A Unified Framework for RAG Serving [6.430565435912026]
Retrieval Augmented Generation (RAG) は、外部知識ソースとの統合による大規模言語モデルの信頼性向上のための新しいパラダイムとして登場した。
Patchworkは、これらの効率のボトルネックに対処するために設計された、包括的なエンドツーエンドのRAGサービスフレームワークです。
論文 参考訳(メタデータ) (2025-05-01T18:58:26Z) - F-INR: Functional Tensor Decomposition for Implicit Neural Representations [7.183424522250937]
Implicit Representation (INR) は、ニューラルネットワークを用いて離散信号を連続的に微分可能な関数に符号化する強力なツールとして登場した。
機能的分解によりINR学習を再構築し,高次元タスクを軽量な軸特化サブネットワークに分割するフレームワークF-INRを提案する。
論文 参考訳(メタデータ) (2025-03-27T13:51:31Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data [0.42881773214459123]
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
論文 参考訳(メタデータ) (2025-01-21T10:06:19Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Triple-level Model Inferred Collaborative Network Architecture for Video
Deraining [43.06607185181434]
我々は,協調最適化と自動探索機構を用いてネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発した。
我々のモデルは、最先端の作業よりも忠実度と時間的一貫性が著しく向上したことを示している。
論文 参考訳(メタデータ) (2021-11-08T13:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。