Fugu-MT 論文翻訳(概要): Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles

論文の概要: Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles

arxiv url: http://arxiv.org/abs/2409.18014v1
Date: Thu, 26 Sep 2024 16:22:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 22:26:48.149643
Title: Role-RL: Online Long-Context Processing with Role Reinforcement Learning for Distinct LLMs in Their Optimal Roles
Title（参考訳）: Role-RL: Reinforcement LearningによるLLMのオンライン長期処理とその最適役割
Authors: Lewei He, Tianyu Shi, Pengran Huang, Bingzhi Chen, Qianglong Chen, Jiahui Pan,
Abstract要約: 長いコンテキスト処理を持つ大規模言語モデル(LLM)は、実装の複雑さ、訓練効率、データの分散性のために、依然として難しい。オンラインLong-Context Processing(OLP)は、無制限のドキュメントを処理する際に提案されるもので、通常は、自動ニュースレポーティング、ライブeコマース、バイラルショートビデオなどの多様なストリーミングメディアの情報受信と組織化に発生する。また,OLPパイプライン内の各ロールに,実際の性能に応じて異なるLLMを自動デプロイする役割強化学習(Role-RL)を開発した。
参考スコア（独自算出の注目度）: 13.64363652226897
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) with long-context processing are still challenging because of their implementation complexity, training efficiency and data sparsity. To address this issue, a new paradigm named Online Long-context Processing (OLP) is proposed when we process a document of unlimited length, which typically occurs in the information reception and organization of diverse streaming media such as automated news reporting, live e-commerce, and viral short videos. Moreover, a dilemma was often encountered when we tried to select the most suitable LLM from a large number of LLMs amidst explosive growth aiming for outstanding performance, affordable prices, and short response delays. In view of this, we also develop Role Reinforcement Learning (Role-RL) to automatically deploy different LLMs in their respective roles within the OLP pipeline according to their actual performance. Extensive experiments are conducted on our OLP-MINI dataset and it is found that OLP with Role-RL framework achieves OLP benchmark with an average recall rate of 93.2% and the LLM cost saved by 79.4%. The code and dataset are publicly available at: https://anonymous.4open.science/r/Role-RL.
Abstract（参考訳）: 長いコンテキスト処理を持つ大規模言語モデル(LLM)は、実装の複雑さ、訓練効率、データの分散性のために、依然として難しい。この問題に対処するために、オンライン長文処理(OLP)と呼ばれる新しいパラダイムが、無制限のドキュメントを処理する際に提案される。さらに, 優れた性能, 安価な価格, 短応答遅延を目標とした爆発的成長の中で, 多数のLDMから最も適したLSMを選択しようとすると, ジレンマが発生することが多かった。また,OLPパイプライン内の各役割において,実際の性能に応じて異なるLLMを自動展開する役割強化学習(Role-RL)を開発した。 OLP-MINIデータセットを用いて大規模な実験を行い,Role-RLフレームワークを用いたOPPが平均リコール率93.2%,LLMコスト79.4%のOLPベンチマークを達成した。コードとデータセットは、https://anonymous.4open.science/r/Role-RLで公開されている。

関連論文リスト

Smooth Reading: Bridging the Gap of Recurrent LLM to Self-Attention LLM on Long-Context Tasks [22.376992141725495]
人間の読み方から着想を得たチャンクワイド推論手法であるSmooth Readingを提案する。実験結果から,長文タスクにおけるリカレントLLMとセルフアテンションLLMのパフォーマンスギャップが大幅に狭まることがわかった。提案手法は, 自己注意型LPMに比べて3倍高速に学習し, 64kコンテキストで2倍高速に推定する。
論文参考訳（メタデータ） (2025-07-25T15:02:45Z)
What Factors Affect LLMs and RLLMs in Financial Question Answering? [4.42417272193095]
本研究では、金融分野における大規模言語モデル(LLM)と大規模言語モデル(RLLM)に対する様々な手法の影響について検討する。我々は,5つのLLMと3つのRLLMを用いて,財務質問応答タスクに対するプロンプト手法,エージェントフレームワーク,多言語アライメント手法の効果を評価する。
論文参考訳（メタデータ） (2025-07-11T06:37:44Z)
LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs [63.580867975515474]
拡散LDMと従来の自己回帰LDMの長文性能を比較検討する。 LLaDAとNTKベースのRoPE外挿法を統合したLongLLaDAを提案する。
論文参考訳（メタデータ） (2025-06-17T11:45:37Z)
DeepRec: Towards a Deep Dive Into the Item Space with Large Language Model Based Recommendation [83.21140655248624]
大型言語モデル (LLM) はレコメンダシステム (RS) に導入された。本稿では, LLM と TRM の自律的マルチターンインタラクションを実現する新しい RS である DeepRec を提案する。公開データセットの実験では、DeepRecは従来のものとLLMベースのベースラインの両方で大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2025-05-22T15:49:38Z)
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T15:49:56Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Symbiotic Cooperation for Web Agents: Harnessing Complementary Strengths of Large and Small LLMs [38.86873408585195]
大規模言語モデル(LLM)を利用したWebブラウジングエージェントは、複雑なWebベースのタスクを自動化する大きな可能性を示している。既存のアプローチは通常、Web環境を探索し、軌跡データを生成するために大きなLLMに依存している。本稿では,データ合成とタスクパフォーマンスを結合した反復的フレームワークであるAgentSymbioticを提案する。
論文参考訳（メタデータ） (2025-02-11T20:41:49Z)
A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文参考訳（メタデータ） (2024-06-01T07:18:56Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文参考訳（メタデータ） (2024-04-14T13:19:40Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Small Language Model Is a Good Guide for Large Language Model in Chinese Entity Relation Extraction [13.344709924683471]
本稿では,モデルコラボレーションフレームワークSLCoLMを提案する。 textit-Training-Guide-Predict' 戦略を用いて,事前学習言語モデル (PLM) と大規模言語モデル (LLM) の強みを組み合わせる。関係型に富んだREデータセットに対する実験により,本論文のアプローチが長い関係型のREを促進することを示す。
論文参考訳（メタデータ） (2024-02-22T08:26:56Z)
Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文参考訳（メタデータ） (2024-01-13T07:57:01Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。我々は「反射チューニング」と呼ばれる新しい手法を提案する。このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文参考訳（メタデータ） (2023-10-18T05:13:47Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。