論文の概要: PEARL: Self-Evolving Assistant for Time Management with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.11957v1
- Date: Sat, 17 Jan 2026 08:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.39524
- Title: PEARL: Self-Evolving Assistant for Time Management with Reinforcement Learning
- Title(参考訳): PEARL:強化学習による時間管理のための自己進化型アシスタント
- Authors: Bingxuan Li, Jeonghwan Kim, Cheng Qian, Xiusi Chen, Eitan Anzenberg, Niran Kundapur, Heng Ji,
- Abstract要約: 本稿では,言語エージェントを外部メモリモジュールで拡張し,ラウンドワイド報酬設計を最適化した強化学習フレームワークであるPEARLを提案する。
CalBenchの実験では、PEARLは最強のベースラインに比べて平均エラー率0.76、平均エラー率55%を達成した。
- 参考スコア(独自算出の注目度): 50.81994347448835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overlapping calendar invitations force busy professionals to repeatedly decide which meetings to attend, reschedule, or decline. We refer to this preference-driven decision process as calendar conflict resolution. Automating such process is crucial yet challenging. Scheduling logistics drain hours, and human delegation often fails at scale, which motivate we to ask: Can we trust large language model (LLM) or language agent to manager time? To enable systematic study of this question, we introduce CalConflictBench, a benchmark for long-horizon calendar conflict resolution. Conflicts are presented sequentially and agents receive feedback after each round, requiring them to infer and adapt to user preferences progressively. Our experiments show that current LLM agents perform poorly with high error rates, e.g., Qwen-3-30B-Think has 35% average error rate. To address this gap, we propose PEARL, a reinforcement-learning framework that augments language agent with an external memory module and optimized round-wise reward design, enabling agent to progressively infer and adapt to user preferences on-the-fly. Experiments on CalConflictBench shows that PEARL achieves 0.76 error reduction rate, and 55% improvement in average error rate compared to the strongest baseline.
- Abstract(参考訳): 重複するカレンダーの招待状は、忙しい専門家に、どの会議に出席するか、再会するか、あるいは辞退するかを決定させます。
我々は、この選好駆動決定プロセスをカレンダーコンフリクト解決と呼ぶ。
このようなプロセスの自動化は不可欠だが、難しい。
大規模言語モデル(LLM)や言語エージェントを管理時間として信頼できますか?
この問題を体系的に研究するために,長期カレンダー競合解消のためのベンチマークであるCalConflictBenchを紹介する。
コンフリクトは順次提示され、エージェントは各ラウンド後にフィードバックを受け、ユーザーの好みを徐々に推測し、適応させる必要がある。
実験の結果,現在のLLMエージェントは,Qwen-3-30B-Thinkの平均エラーレートが35%である場合,高いエラーレートで性能が良くないことがわかった。
このギャップに対処するために,言語エージェントを外部メモリモジュールで拡張し,ラウンドワイド報酬設計を最適化した強化学習フレームワークであるPEARLを提案する。
CalConflictBenchの実験では、PEARLは最強のベースラインに比べて平均エラー率を0.76、平均エラー率を55%改善している。
関連論文リスト
- SPAN: Benchmarking and Improving Cross-Calendar Temporal Reasoning of Large Language Models [7.437301045895224]
SPANは、経時的時間的推論のベンチマークである。
SPANには10カレンダの時間的推論方向、2つの推論タイプ、6つのカレンダーに2つの質問形式がある。
本研究では,動的インスタンス生成のためのテンプレート駆動型プロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-13T05:57:19Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - Direct Multi-Turn Preference Optimization for Language Agents [44.02877245158347]
エージェントタスクに対するLLM(Large Language Models)の適用は、言語エージェントの開発において重要である。
直接選好最適化(DPO)は、複合誤差の緩和によるこの適応のための有望な手法である。
DPOをマルチターンタスクに適用することは、パーティション関数をキャンセルできないため、課題を提起する。
論文 参考訳(メタデータ) (2024-06-21T05:13:20Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。