論文の概要: $PA^3$: $\textbf{P}$olicy-$\textbf{A}$ware $\textbf{A}$gent $\textbf{A}$lignment through Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2603.14602v1
- Date: Sun, 15 Mar 2026 20:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.912784
- Title: $PA^3$: $\textbf{P}$olicy-$\textbf{A}$ware $\textbf{A}$gent $\textbf{A}$lignment through Chain-of-Thought
- Title(参考訳): $PA^3$: $\textbf{P}$olicy-$\textbf{A}$ware $\textbf{A}$gent $\textbf{A}$lignment through Chain-of-Thought
- Authors: Shubhashis Roy Dipta, Daniel Bis, Kun Zhou, Lichao Wang, Benjamin Z. Yao, Chenlei Guo, Ruhi Sarikaya,
- Abstract要約: 大規模言語モデル(LLM)は、ツール使用タスクでは優れていますが、複雑なビジネス固有のルールに固執することに苦労しています。
本稿では,チェーン・オブ・シークレットの推論において,モデルに関連するビジネスポリシーのリコールと適用を指導する多段階アライメント手法を提案する。
本稿では,Jaccard スコアと GRPO トレーニングのためのHalucination Penalty に基づく新しい PolicyRecall reward を導入する。
- 参考スコア(独自算出の注目度): 19.12626221220528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational assistants powered by large language models (LLMs) excel at tool-use tasks but struggle with adhering to complex, business-specific rules. While models can reason over business rules provided in context, including all policies for every query introduces high latency and wastes compute. Furthermore, these lengthy prompts lead to long contexts, harming overall performance due to the "needle-in-the-haystack" problem. To address these challenges, we propose a multi-stage alignment method that teaches models to recall and apply relevant business policies during chain-of-thought reasoning at inference time, without including the full business policy in-context. Furthermore, we introduce a novel PolicyRecall reward based on the Jaccard score and a Hallucination Penalty for GRPO training. Altogether, our best model outperforms the baseline by 16 points and surpasses comparable in-context baselines of similar model size by 3 points, while using 40% fewer words.
- Abstract(参考訳): 大型言語モデル(LLM)を利用した会話アシスタントは、ツール使用タスクに優れるが、複雑なビジネス固有のルールに固執することに苦労する。
モデルはコンテキストで提供されるビジネスルールを推論できるが、クエリのすべてのポリシは、高いレイテンシとムダの計算を導入している。
さらに、これらの長いプロンプトは、"needle-in-the-haystack"問題による全体的なパフォーマンスを損なう。
これらの課題に対処するため,本論文では,モデルに対して,コンテキスト内での完全なビジネスポリシーを含めることなく,推論時に関連するビジネスポリシーをリコールし,適用するように指導する多段階アライメント手法を提案する。
さらに,JaccardスコアとGRPOトレーニングのためのHalucination Penaltyに基づく新しいPolicyRecall報酬を導入する。
さらに、我々の最良のモデルでは、ベースラインを16ポイント上回り、類似のモデルサイズで同等のテキスト内ベースラインを3ポイント上回ります。
関連論文リスト
- Self-Hinting Language Models Enhance Reinforcement Learning [37.311361929798714]
我々は、権限付き監督(SAGE)を備えた自己隠れ型GRPOを提案する。
SAGEはトレーニング中に特権付きヒントを注入し、同じ端末検証者報酬の下でロールアウト分布を再生成する。
3つのLSMを持つ6つのベンチマーク実験の結果、SAGEはGRPOを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-03T05:56:20Z) - Learning Steerable Clarification Policies with Collaborative Self-play [67.67872810596839]
不明瞭なクエリを処理するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。
我々は,この不確実性を管理するために,自己再生を用いて評価可能な政策を訓練することを提案する。
このことが、提供されたコストに応じて予測可能な振る舞いを変更する、評価可能なポリシーにつながることを示す。
論文 参考訳(メタデータ) (2025-12-03T18:49:54Z) - Multimodal Policy Internalization for Conversational Agents [48.11601444262434]
マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。
合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。
TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
論文 参考訳(メタデータ) (2025-10-10T15:28:30Z) - Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。
このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2025-06-08T13:37:38Z) - Adaptive Thinking via Mode Policy Optimization for Social Language Agents [75.3092060637826]
動的社会的相互作用における言語エージェントの適応的思考能力を改善するための枠組みを提案する。
本フレームワークは,(1)多言語思考モード設計,(2)コンテキスト認識モード切り替え,(3)深度適応処理によるトークン効率推論の3つの重要な側面において,既存の研究を推し進めている。
論文 参考訳(メタデータ) (2025-05-04T15:39:58Z) - Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。
本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。
FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文 参考訳(メタデータ) (2025-01-24T10:11:48Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task Adaptation [43.32632163091792]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。