論文の概要: Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy
- arxiv url: http://arxiv.org/abs/2507.01327v1
- Date: Wed, 02 Jul 2025 03:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.034514
- Title: Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy
- Title(参考訳): 実世界の事象検出のための推論器:適応的パープレキシティ・アウェアサンプリング戦略による強化学習のスケーリング
- Authors: Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Jiansong Chen, Ke Zeng, Xunliang Cai,
- Abstract要約: 本稿では,異常事象検出のための適応パープレキシティ・アウェア強化学習(APARL)フレームワークを提案する。
APARLはデュアルループ動的カリキュラム学習アーキテクチャを導入し、モデルがより困難なサンプルに徐々にフォーカスできるようにする。
本モデルでは, 平均17.19%, 平均9.59%, 平均9.59%のF1値を得た。
- 参考スコア(独自算出の注目度): 15.2198304195864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting abnormal events in real-world customer service dialogues is highly challenging due to the complexity of business data and the dynamic nature of customer interactions. Moreover, models must demonstrate strong out-of-domain (OOD) generalization to enable rapid adaptation across different business scenarios and maximize commercial value. In this work, we propose a novel Adaptive Perplexity-Aware Reinforcement Learning (APARL) framework that leverages the advanced reasoning capabilities of large language models for abnormal event detection. APARL introduces a dual-loop dynamic curriculum learning architecture, enabling the model to progressively focus on more challenging samples as its proficiency increases. This design effectively addresses performance bottlenecks and significantly enhances OOD transferability. Extensive evaluations on food delivery dialogue tasks show that our model achieves significantly enhanced adaptability and robustness, attaining the highest F1 score with an average improvement of 17.19\%, and an average improvement of 9.59\% in OOD transfer tests. This method provides a superior solution for industrial deployment of anomaly detection models, contributing to improved operational efficiency and commercial benefits.
- Abstract(参考訳): 実世界のカスタマーサービス対話における異常事象を検出することは、ビジネスデータの複雑さと顧客のインタラクションの動的な性質のために非常に困難である。
さらにモデルは、さまざまなビジネスシナリオに迅速に適応し、商業価値を最大化するために、強力なドメイン外一般化(OOD)を示す必要があります。
本研究では,大規模言語モデルの高度な推論能力を利用して異常事象の検出を行う,適応パープレキシティ・アウェア強化学習(APARL)フレームワークを提案する。
APARLはデュアルループ動的カリキュラム学習アーキテクチャを導入し、その習熟度が向上するにつれて、モデルはより困難なサンプルに徐々に焦点を合わせることができる。
この設計は性能ボトルネックを効果的に解決し、OOD転送可能性を大幅に向上させる。
食事提供対話タスクの大規模評価から,OODトランスファーテストではF1スコアが17.19 %,F1スコアが9.59 %,F1スコアが17.19 %,F1スコアが9.59 %であった。
この方法は異常検出モデルの産業展開に優れたソリューションを提供し、運用効率の向上と商業的利益に寄与する。
関連論文リスト
- Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models [25.51735861729728]
現代のニューラルネットワークは、誤って分類された予測に対して過度に自信を示し、エラーを検出するための信頼度推定の必要性を強調している。
我々は、テキスト情報を利用した視覚言語モデル(VLM)を利用して、効率的で汎用的な誤分類検出フレームワークを確立する。
VLMのパワーを活用することで、MisDのためのFew-Shotプロンプト学習フレームワークであるFSMisDを構築し、スクラッチからトレーニングを控え、チューニング効率を向上させる。
論文 参考訳(メタデータ) (2025-03-26T12:31:04Z) - Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。