論文の概要: Learning Steerable Clarification Policies with Collaborative Self-play
- arxiv url: http://arxiv.org/abs/2512.04068v1
- Date: Wed, 03 Dec 2025 18:49:54 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:59:58.56674
- Title: Learning Steerable Clarification Policies with Collaborative Self-play
- Title(参考訳): 協調型セルフプレイによるステアブル・クリアリフィケーション・ポリシーの学習
- Authors: Jonathan Berant, Maximillian Chen, Adam Fisch, Reza Aghajani, Fantine Huot, Mirella Lapata, Jacob Eisenstein,
- Abstract要約: 不明瞭なクエリを処理するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。
我々は,この不確実性を管理するために,自己再生を用いて評価可能な政策を訓練することを提案する。
このことが、提供されたコストに応じて予測可能な振る舞いを変更する、評価可能なポリシーにつながることを示す。
- 参考スコア(独自算出の注目度): 67.67872810596839
- License:
- Abstract: To handle underspecified or ambiguous queries, AI assistants need a policy for managing their uncertainty to determine (a) when to guess the user intent and answer directly, (b) when to enumerate and answer multiple possible intents, and (c) when to ask a clarifying question. However, such policies are contextually dependent on factors such as user preferences or modality. For example, enumerating multiple possible user intentions is cumbersome on small screens or in a voice setting. In this work, we propose to train steerable policies for managing this uncertainty using self-play. Given two agents, one simulating a user and the other an AI assistant, we generate conversations where the user issues a potentially ambiguous query, and the assistant needs to determine how to respond. Importantly, the model takes as input the numerical cost of each clarification question, and each generated word, and is asked to take the action that will maximize its final reward, which is the cost-penalized accuracy. We use Reinforced Self-Training (ReST) to train our model to achieve high reward and show this leads to a steerable policy that changes its behavior predictably conditioned on the provided costs, leading to higher reward and accuracy. Moreover, our procedure also generalizes to numerical cost values that were unobserved at training time.
- Abstract(参考訳): 不明確で曖昧なクエリに対処するために、AIアシスタントは不確実性を管理するためのポリシーが必要である。
(a) 利用者の意図を推測して直接回答する時
b)複数の可能な意図を列挙して答える時
(c) 明確な質問をする時。
しかし、そのようなポリシーはユーザーの好みやモダリティといった要因に文脈的に依存する。
例えば、複数のユーザ意図を列挙することは、小さな画面や音声設定では煩雑である。
本研究では,この不確実性をセルフプレイで管理するための評価可能な政策を学習することを提案する。
ユーザとAIアシスタントをシミュレートする2つのエージェントが与えられたら、ユーザが潜在的にあいまいなクエリを発行する会話を生成し、アシスタントが応答方法を決定する必要がある。
重要なことに、モデルは、各明確化質問の数値コストと生成された単語を入力として、最終的な報酬を最大化する行動を取るように要求される。
我々は、Reinforced Self-Training(ReST)を使用して、高い報酬を達成するためにモデルをトレーニングし、これは、提供されたコストで予測可能な振る舞いを変化させ、より高い報酬と正確性をもたらす、ステアブルなポリシーをもたらすことを示す。
さらに,本手法は,トレーニング時に観測されなかった数値コスト値にも一般化する。
関連論文リスト
- e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Steering Robots with Inference-Time Interactions [0.5801621787540268]
事前訓練されたポリシーがデプロイメント中にエラーを発生させる場合、ユーザがその動作を修正するための制限されたメカニズムが存在する。
私の研究は、トレーニング済みのポリシーを固定されたスキルレパートリーとして凍結させながら、ユーザーのインタラクションが推論時に行動生成をガイドできるようにする方法を提案する。
具体的には,(1)個別のスキルの切り替えにユーザインタラクションを活用する推論時ステアリング,(2)個別のシンボリックプランで定義されたタスク制約を満たしつつ,ユーザインタラクションによる連続的な動作の編集を可能にするタスクと動作の模倣を提案する。
論文 参考訳(メタデータ) (2025-06-17T07:59:07Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Social Contract AI: Aligning AI Assistants with Implicit Group Norms [37.68821926786935]
我々は、観察されたインタラクションからユーザの(未知の)好みのモデルを反転させることで、AIアシスタントを整列させるアイデアを探求する。
本研究は,ユーザの嗜好をシミュレートされたプレイヤーの行動を導くポリシーとして定式化し,概念実証シミュレーションを行う。
論文 参考訳(メタデータ) (2023-10-26T20:27:03Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Personalized Algorithmic Recourse with Preference Elicitation [20.78332455864586]
PEARは、エンドユーザーのニーズに合わせてパーソナライズされたアルゴリズムの講義を提供する。
PEARは、ベイジアン選好引用からの洞察に基づいて、ターゲットユーザに対して選択セットクエリを尋ねることで、アクションのコストを反復的に見積もる。
実世界のデータセットに対する実証的な評価は、PEARがいかに高品質なパーソナライズされたリコースをほんの数イテレーションで生成するかを強調します。
論文 参考訳(メタデータ) (2022-05-27T03:12:18Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。