論文の概要: Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy
- arxiv url: http://arxiv.org/abs/2507.01327v1
- Date: Wed, 02 Jul 2025 03:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.034514
- Title: Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy
- Title(参考訳): 実世界の事象検出のための推論器:適応的パープレキシティ・アウェアサンプリング戦略による強化学習のスケーリング
- Authors: Xiaoyun Zhang, Jingqing Ruan, Xing Ma, Yawen Zhu, Jiansong Chen, Ke Zeng, Xunliang Cai,
- Abstract要約: 本稿では,異常事象検出のための適応パープレキシティ・アウェア強化学習(APARL)フレームワークを提案する。
APARLはデュアルループ動的カリキュラム学習アーキテクチャを導入し、モデルがより困難なサンプルに徐々にフォーカスできるようにする。
本モデルでは, 平均17.19%, 平均9.59%, 平均9.59%のF1値を得た。
- 参考スコア(独自算出の注目度): 15.2198304195864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting abnormal events in real-world customer service dialogues is highly challenging due to the complexity of business data and the dynamic nature of customer interactions. Moreover, models must demonstrate strong out-of-domain (OOD) generalization to enable rapid adaptation across different business scenarios and maximize commercial value. In this work, we propose a novel Adaptive Perplexity-Aware Reinforcement Learning (APARL) framework that leverages the advanced reasoning capabilities of large language models for abnormal event detection. APARL introduces a dual-loop dynamic curriculum learning architecture, enabling the model to progressively focus on more challenging samples as its proficiency increases. This design effectively addresses performance bottlenecks and significantly enhances OOD transferability. Extensive evaluations on food delivery dialogue tasks show that our model achieves significantly enhanced adaptability and robustness, attaining the highest F1 score with an average improvement of 17.19\%, and an average improvement of 9.59\% in OOD transfer tests. This method provides a superior solution for industrial deployment of anomaly detection models, contributing to improved operational efficiency and commercial benefits.
- Abstract(参考訳): 実世界のカスタマーサービス対話における異常事象を検出することは、ビジネスデータの複雑さと顧客のインタラクションの動的な性質のために非常に困難である。
さらにモデルは、さまざまなビジネスシナリオに迅速に適応し、商業価値を最大化するために、強力なドメイン外一般化(OOD)を示す必要があります。
本研究では,大規模言語モデルの高度な推論能力を利用して異常事象の検出を行う,適応パープレキシティ・アウェア強化学習(APARL)フレームワークを提案する。
APARLはデュアルループ動的カリキュラム学習アーキテクチャを導入し、その習熟度が向上するにつれて、モデルはより困難なサンプルに徐々に焦点を合わせることができる。
この設計は性能ボトルネックを効果的に解決し、OOD転送可能性を大幅に向上させる。
食事提供対話タスクの大規模評価から,OODトランスファーテストではF1スコアが17.19 %,F1スコアが9.59 %,F1スコアが17.19 %,F1スコアが9.59 %であった。
この方法は異常検出モデルの産業展開に優れたソリューションを提供し、運用効率の向上と商業的利益に寄与する。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - Detect, Explain, Escalate: Low-Carbon Dialogue Breakdown Management for LLM-Powered Agents [30.13634341221476]
大規模言語モデル(LLM)は、多くのアプリケーションを変えつつありますが、会話のブレークダウンへの感受性は、ユーザ信頼を損なう重要な課題です。
本稿では,低炭素運転を重視したLDMエージェントの対話分解を管理するためのフレームワーク「Detect, Explain, Escalate」を提案する。
論文 参考訳(メタデータ) (2025-04-26T07:51:05Z) - Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。
本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models [25.51735861729728]
現代のニューラルネットワークは、誤って分類された予測に対して過度に自信を示し、エラーを検出するための信頼度推定の必要性を強調している。
我々は、テキスト情報を利用した視覚言語モデル(VLM)を利用して、効率的で汎用的な誤分類検出フレームワークを確立する。
VLMのパワーを活用することで、MisDのためのFew-Shotプロンプト学習フレームワークであるFSMisDを構築し、スクラッチからトレーニングを控え、チューニング効率を向上させる。
論文 参考訳(メタデータ) (2025-03-26T12:31:04Z) - Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。