Fugu-MT 論文翻訳(概要): Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

論文の概要: Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

arxiv url: http://arxiv.org/abs/2505.17826v1
Date: Fri, 23 May 2025 12:41:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:34.070322
Title: Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
Title（参考訳）: Trinity-RFT:大規模言語モデルの微調整のための汎用的で統一的なフレームワーク
Authors: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou,
Abstract要約: Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計されたフレームワークである。 RFT-coreは同期/非同期、オンライン/オフライン、RTTのオンライン/オフラインモードを統一・一般化する。
参考スコア（独自算出の注目度）: 67.21197656608324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Trinity-RFT is a general-purpose, flexible and scalable framework designed for reinforcement fine-tuning (RFT) of large language models. It is built with a decoupled design, consisting of (1) an RFT-core that unifies and generalizes synchronous/asynchronous, on-policy/off-policy, and online/offline modes of RFT, (2) seamless integration for agent-environment interaction with high efficiency and robustness, and (3) systematic data pipelines optimized for RFT. Trinity-RFT can be easily adapted for diverse application scenarios, and serves as a unified platform for exploring advanced reinforcement learning paradigms. This technical report outlines the vision, features, design and implementations of Trinity-RFT, accompanied by extensive examples demonstrating the utility and user-friendliness of the proposed framework.
Abstract（参考訳）: Trinity-RFTは、大規模言語モデルの強化微調整(RFT)のために設計された汎用的でフレキシブルでスケーラブルなフレームワークである。 1)同期・非同期・オン・ポリティクス・オンライン・オフラインモードを統一・一般化するRTTコアと,(2)エージェント環境と高効率・堅牢性とのシームレスな連携,(3)RFTに最適化された系統的なデータパイプラインから構成される。 Trinity-RFTは多様なアプリケーションシナリオに容易に適応でき、高度な強化学習パラダイムを探求するための統一されたプラットフォームとして機能する。本稿では,Trinity-RFTのビジョン,特徴,設計,実装について概説する。

関連論文リスト

FireRed-OCR Technical Report [30.019999826760003]
本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。高品質な構造化データの不足に対処するため,Geometry + Semantics's Data Factoryを構築した。本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
論文参考訳（メタデータ） (2026-03-02T13:19:23Z)
RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding [69.98331019544166]
MLLM(Multimodal Large Language Models)は主にRGBモダリティに基づいて事前訓練されている。 RGBX-R1はMLLMの知覚と推論能力を高めるためのフレームワークである。
論文参考訳（メタデータ） (2026-01-31T04:13:57Z)
MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。 MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文参考訳（メタデータ） (2025-10-31T06:54:27Z)
FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling [39.45732462111156]
本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。 FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。 FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-10-28T17:15:26Z)
FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations [7.21760093645833]
Inlicit Neural Representation (INR)は、データを連続関数としてエンコードするために広く使われている。既存のINRベースの手法では,(1)複素構造の非フレキシブル表現,(2)主に単変数データ,(3)構造格子への依存の3つの制限に直面している。
論文参考訳（メタデータ） (2025-07-03T09:55:57Z)
Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文参考訳（メタデータ） (2025-07-02T13:04:09Z)
Multi-Modal Multi-Task Federated Foundation Models for Next-Generation Extended Reality Systems: Towards Privacy-Preserving Distributed Intelligence in AR/VR/MR [12.109032063788417]
我々は,マルチモーダルマルチタスク(M3T)フェデレーション基盤モデル(FedFM)が,XRシステムに変換機能を提供することを想定する。モデルトレーニングとアグリゲーションのための異なる調整パラダイムを必要とするFedFMのモジュラーアーキテクチャを提案する。この視点は、次世代のXRシステムにおいて、コンテキスト対応のプライバシ保護インテリジェンスのための技術的および概念的な基礎をグラフ化することを目的としている。
論文参考訳（メタデータ） (2025-06-06T02:23:42Z)
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning [41.24641565316878]
3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。 DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
論文参考訳（メタデータ） (2025-05-28T22:32:31Z)
UFT: Unifying Supervised and Reinforcement Fine-Tuning [21.195897792629548]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。 UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文参考訳（メタデータ） (2025-05-22T17:53:57Z)
Patchwork: A Unified Framework for RAG Serving [6.430565435912026]
Retrieval Augmented Generation (RAG) は、外部知識ソースとの統合による大規模言語モデルの信頼性向上のための新しいパラダイムとして登場した。 Patchworkは、これらの効率のボトルネックに対処するために設計された、包括的なエンドツーエンドのRAGサービスフレームワークです。
論文参考訳（メタデータ） (2025-05-01T18:58:26Z)
F-INR: Functional Tensor Decomposition for Implicit Neural Representations [7.183424522250937]
Implicit Representation (INR) は、ニューラルネットワークを用いて離散信号を連続的に微分可能な関数に符号化する強力なツールとして登場した。機能的分解によりINR学習を再構築し,高次元タスクを軽量な軸特化サブネットワークに分割するフレームワークF-INRを提案する。
論文参考訳（メタデータ） (2025-03-27T13:51:31Z)
Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文参考訳（メタデータ） (2025-03-26T17:38:06Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data [0.42881773214459123]
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
論文参考訳（メタデータ） (2025-01-21T10:06:19Z)
Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文参考訳（メタデータ） (2024-12-02T14:44:39Z)
Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文参考訳（メタデータ） (2024-06-11T01:16:10Z)
Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文参考訳（メタデータ） (2023-12-18T13:51:56Z)
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。 UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文参考訳（メタデータ） (2023-08-15T12:13:44Z)
DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-01-15T09:31:58Z)
Triple-level Model Inferred Collaborative Network Architecture for Video Deraining [43.06607185181434]
我々は,協調最適化と自動探索機構を用いてネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発した。我々のモデルは、最先端の作業よりも忠実度と時間的一貫性が著しく向上したことを示している。
論文参考訳（メタデータ） (2021-11-08T13:09:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。