論文の概要: Augmented Reinforcement Learning Framework For Enhancing Decision-Making In Machine Learning Models Using External Agents
- arxiv url: http://arxiv.org/abs/2508.01612v1
- Date: Sun, 03 Aug 2025 06:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.968218
- Title: Augmented Reinforcement Learning Framework For Enhancing Decision-Making In Machine Learning Models Using External Agents
- Title(参考訳): 外部エージェントを用いた機械学習モデルにおける意思決定強化のための強化強化学習フレームワーク
- Authors: Sandesh Kumar Singh,
- Abstract要約: 本研究は,意思決定能力向上のための新しい手法である強化強化学習フレームワークを提案する。
外部エージェントは、人間や自動スクリプトのような、決定経路の修正に役立つ誰でもよい。
このフレームワークには、2つの外部エージェントが組み込まれており、コース修正とトレーニングサイクルのすべてのポイントにおける品質データの保証を支援する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a novel technique Augmented Reinforcement Learning framework for the improvement of decision-making capabilities of machine learning models. The introduction of agents as external overseers checks on model decisions. The external agent can be anyone, like humans or automated scripts, that helps in decision path correction. It seeks to ascertain the priority of the "Garbage-In, Garbage-Out" problem that caused poor data inputs or incorrect actions in reinforcement learning. The ARL framework incorporates two external agents that aid in course correction and the guarantee of quality data at all points of the training cycle. The External Agent 1 is a real-time evaluator, which will provide feedback light of decisions taken by the model, identify suboptimal actions forming the Rejected Data Pipeline. The External Agent 2 helps in selective curation of the provided feedback with relevance and accuracy in business scenarios creates an approved dataset for future training cycles. The validation of the framework is also applied to a real-world scenario, which is "Document Identification and Information Extraction". This problem originates mainly from banking systems, but can be extended anywhere. The method of classification and extraction of information has to be done correctly here. Experimental results show that including human feedback significantly enhances the ability of the model in order to increase robustness and accuracy in making decisions. The augmented approach, with a combination of machine efficiency and human insight, attains a higher learning standard-mainly in complex or ambiguous environments. The findings of this study show that human-in-the-loop reinforcement learning frameworks such as ARL can provide a scalable approach to improving model performance in data-driven applications.
- Abstract(参考訳): 本研究は,機械学習モデルの意思決定能力向上のための新しい手法であるAugmented Reinforcement Learningフレームワークを提案する。
外部監督者としてのエージェントの導入は、モデル決定をチェックする。
外部エージェントは、人間や自動スクリプトのような、決定経路の修正に役立つ誰でもよい。
劣悪なデータ入力や強化学習における誤った行動を引き起こす「ガベージ・イン・ガベージ・アウト」問題の優先順位を確認することを目指している。
ARLフレームワークには、コース修正とトレーニングサイクルのすべてのポイントにおける品質データの保証を支援する2つの外部エージェントが含まれている。
外部エージェント1はリアルタイム評価器であり、モデルによって決定されたフィードバック情報を提供し、Rejected Data Pipelineを構成する最適サブアクションを特定する。
外部エージェント2は、ビジネスシナリオにおける関連性と正確性を備えた、提供されたフィードバックの選択的なキュレーションを支援し、将来のトレーニングサイクルのための承認されたデータセットを作成する。
フレームワークの検証は、"文書識別と情報抽出"という現実世界のシナリオにも適用されます。
この問題は、主に銀行システムに由来するが、どこでも拡張できる。
情報の分類と抽出の方法はここで正しく行う必要がある。
実験の結果,人間のフィードバックを含めることで,意思決定における堅牢性や正確性を高めるために,モデルの能力が著しく向上することがわかった。
マシン効率と人間の洞察を組み合わせることで、強化されたアプローチは、複雑な環境やあいまいな環境において、より高度な学習標準を達成します。
本研究では,ARLのようなマルチループ強化学習フレームワークが,データ駆動アプリケーションにおけるモデル性能向上にスケーラブルなアプローチを提供することを示す。
関連論文リスト
- KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - External Model Motivated Agents: Reinforcement Learning for Enhanced Environment Sampling [3.536024441537599]
強化学習(RL)エージェントとは異なり、人間は環境の変化において有能なマルチタスクのままである。
環境変化における外部モデルの適応効率を向上させるために,RLエージェントのエージェント影響フレームワークを提案する。
提案手法は,効率と性能の両面を測る指標に対する外部モデル適応の観点から,ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-28T23:31:22Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。