論文の概要: Optimizing Life Sciences Agents in Real-Time using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.03065v1
- Date: Wed, 26 Nov 2025 16:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.927689
- Title: Optimizing Life Sciences Agents in Real-Time using Reinforcement Learning
- Title(参考訳): 強化学習を用いたリアルタイムライフサイエンスエージェントの最適化
- Authors: Nihir Chadderwala,
- Abstract要約: 我々は,AWS Strands AgentsとThompson Smplingを組み合わせた新しいフレームワークを提案し,AIエージェントがユーザフィードバックだけで最適な意思決定戦略を学習できるようにする。
ランダムなベースラインに比べてユーザ満足度は15~30%向上し,20~30クエリ後に明らかな学習パターンが出現した。
我々のアプローチでは、基礎となる真理ラベルを必要とせず、ユーザの好みに継続的に適応し、エージェントAIシステムにおける探索-探索ジレンマに対する原則的な解決策を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI agents in life sciences face a critical challenge: determining the optimal approach for diverse queries ranging from simple factoid questions to complex mechanistic reasoning. Traditional methods rely on fixed rules or expensive labeled training data, neither of which adapts to changing conditions or user preferences. We present a novel framework that combines AWS Strands Agents with Thompson Sampling contextual bandits to enable AI agents to learn optimal decision-making strategies from user feedback alone. Our system optimizes three key dimensions: generation strategy selection (direct vs. chain-of-thought), tool selection (literature search, drug databases, etc.), and domain routing (pharmacology, molecular biology, clinical specialists). Through empirical evaluation on life science queries, we demonstrate 15-30\% improvement in user satisfaction compared to random baselines, with clear learning patterns emerging after 20-30 queries. Our approach requires no ground truth labels, adapts continuously to user preferences, and provides a principled solution to the exploration-exploitation dilemma in agentic AI systems.
- Abstract(参考訳): 生命科学における生成AIエージェントは、単純なファクトイド質問から複雑な機械的推論まで、さまざまなクエリに対する最適なアプローチを決定するという、重要な課題に直面している。
従来の手法は、固定されたルールや高価なラベル付きトレーニングデータに依存しており、どちらも条件の変更やユーザの好みに適応しない。
我々は,AWS Strands AgentsとThompson Smplingを組み合わせた新しいフレームワークを提案し,AIエージェントがユーザフィードバックだけで最適な意思決定戦略を学習できるようにする。
本システムでは, 生成戦略選択(直接対思考連鎖), ツール選択(文学検索, 薬物データベースなど), ドメインルーティング(薬学, 分子生物学, 臨床スペシャリスト)の3つの重要な側面を最適化する。
ライフサイエンスクエリの実証評価を通じて,ランダムなベースラインに比べてユーザ満足度が15~30%向上し,20~30クエリ後に明らかな学習パターンが出現した。
我々のアプローチでは、基礎となる真理ラベルを必要とせず、ユーザの好みに継続的に適応し、エージェントAIシステムにおける探索-探索ジレンマに対する原則的な解決策を提供する。
関連論文リスト
- Aligning Machiavellian Agents: Behavior Steering via Test-Time Policy Shaping [5.161558858101654]
モデル誘導型ポリシー整形に基づくテスト時間アライメント手法を提案する。
本手法は,多様な強化学習環境にまたがって,個々の行動特性を正確に制御する。
我々の結果は、テストタイムポリシーの整形が非倫理的行動を緩和するための効果的でスケーラブルなソリューションを提供することを示した。
論文 参考訳(メタデータ) (2025-11-14T18:42:18Z) - Training a Generally Curious Agent [77.61142660542599]
Paprikaは、言語モデルが一般的な意思決定機能を開発することを可能にする微調整のアプローチである。
Paprika氏は、より勾配の更新をすることなく、コンテキスト内の環境フィードバックに基づいて、新しいタスクで彼らの振る舞いを探索し、適応するようにモデルに教えている。
結果は、シーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - Data-Scarce Identification of Game Dynamics via Sum-of-Squares Optimization [29.568222003322344]
マルチプレイヤーの正規形式ゲームにおけるゲームダイナミクスを識別するためのサイドインフォーム支援回帰(SIAR)フレームワークを提案する。
SIARは、SOS(sum-of-squares)最適化を用いて解決され、その結果、システムの真の力学に確実に収束する近似の階層となる。
SIARフレームワークは,未知のシステムがカオスであっても,通常のゲーム,広く知られているゲームダイナミクスのファミリー,強力なベンチマークの範囲で,プレーヤの挙動を正確に予測する。
論文 参考訳(メタデータ) (2023-07-13T09:14:48Z) - Variational Information Pursuit for Interpretable Predictions [8.894670614193677]
変分情報探索 (V-IP) は, 生成モデル学習の必要性を回避したIPの変分特性である。
V-IPは、典型的にはシーケンシャル意思決定問題で使用される強化学習と比較して、クエリチェーンがはるかに短い。
本稿では,V-IPが生成モデルよりも優れた医療診断などの課題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-02-06T15:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。