論文の概要: AWARE-US: Benchmark for Preference-Aware Resolution in Tool-Calling Agents
- arxiv url: http://arxiv.org/abs/2601.02643v1
- Date: Tue, 06 Jan 2026 01:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.765999
- Title: AWARE-US: Benchmark for Preference-Aware Resolution in Tool-Calling Agents
- Title(参考訳): AWARE-US:ツールカートリングエージェントの優先度認識解決のためのベンチマーク
- Authors: Mehmet Kurmaz,
- Abstract要約: 我々は、優先的なクエリ修復問題として、ファシビリティーハンドリングの枠組みを定めている。
クエリが満足できない場合、エージェントはユーザにとって最も重要でない制約を緩和すべきである。
対話から相対的制約の重要度を推定する3つのLSMに基づく手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-calling conversational agents querying structured databases often face two linked failures: underspecification (missing constraints needed to run a precise query) and infeasibility (the fully specified query returns an empty set because no item satisfies all constraints). Existing work often responds with "no results" or relaxes constraints using ad hoc rules, which can violate user intent by discarding requirements the user cares about most. We frame infeasibility handling as a preference-aware query repair problem: when a query is unsatisfiable, the agent should relax the least important constraints to the user. We propose three LLM-based methods for inferring relative constraint importance from dialogue: (1) local weighting, (2) global one-shot weighting, and (3) pairwise ranking. Experiments show local weighting achieves the best preference alignment, while global weighting performs best on correct constraint relaxation. We also introduce AWARE-US, a benchmark of persona-grounded queries requiring agents to disambiguate requests via conversation and resolve infeasibility in a way consistent with persona-implied preferences.
- Abstract(参考訳): ツールコール 構造化データベースをクエリする会話エージェントは、不特定性(正確なクエリを実行するのに必要な制約を欠く)と不実現性(すべての制約を満たす項目が存在しないため、完全に指定されたクエリは空のセットを返す)という、2つのリンクされた障害に直面します。
既存の作業は、しばしば"結果なし"で応答し、アドホックなルールを使用して制約を緩和する。
クエリが満足できない場合、エージェントはユーザにとって最も重要でない制約を緩和すべきである。
本研究では,(1)局所重み付け,(2)大域的ワンショット重み付け,(3)ペアワイズランキングという,対話から相対的制約重要度を推定するための3つのLCM法を提案する。
実験では、局所的な重み付けが最適な嗜好アライメントを達成するのに対し、グローバルな重み付けは正しい制約緩和に最善を尽くす。
また、AWARE-USは、エージェントが会話を通じて要求をあいまいにし、ペルソナに実装された好みと整合した方法で不実現性を解決することを要求するペルソナグラウンドクエリのベンチマークである。
関連論文リスト
- Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Interactive Query Answering on Knowledge Graphs with Soft Entity Constraints [10.209426700875866]
本稿では,クエリに対する元の回答を乱すことなく,ソフト制約を組み込むことで,クエリ応答スコアの調整を目的としたニューラルクエリリランカ(NQR)を提案する。
NQRは対話的に動作し、好まれるエンティティと好ましくないエンティティの漸進的な例に基づいて回答を精査する。
我々の実験は、堅牢なクエリ応答性能を維持しながら、NQRがソフト制約を捕捉できることを実証した。
論文 参考訳(メタデータ) (2025-08-19T09:09:07Z) - Compliance Brain Assistant: Conversational Agentic AI for Assisting Compliance Tasks in Enterprise Environments [2.8724171056550256]
Compliance Brain Assistant (CBA) は、企業環境における人員の日々のコンプライアンスタスクの効率を高めるために設計された、対話型のエージェントAIアシスタントである。
応答品質とレイテンシのバランスを良くするために,FastTrackモードとFullAgenticモードをインテリジェントに選択できるユーザクエリルータを設計する。
論文 参考訳(メタデータ) (2025-07-23T07:51:10Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - CondAmbigQA: A Benchmark and Dataset for Conditional Ambiguous Question Answering [9.50840225852638]
Conditional Ambiguous Question-Answering (CondAmbigQA) は2000の曖昧なクエリと条件対応評価指標からなるベンチマークである。
実験により、回答前の条件を考慮したモデルでは解答精度が11.75%向上し、条件が明示された場合にさらに7.15%向上することが示されている。
論文 参考訳(メタデータ) (2025-02-03T17:01:51Z) - Contextualized Evaluations: Judging Language Model Responses to Underspecified Queries [85.81295563405433]
本稿では,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中にそれを提供するプロトコルを提案する。
その結果,1) 評価から得られた結論の変更,2) モデルペア間のベンチマークランキングの反転,2) スタイルのような表面レベルの基準に基づいて判断を下すナッジ評価,3) 多様なコンテキスト間でのモデル行動に関する新たな洞察の提供,などが確認できた。
論文 参考訳(メタデータ) (2024-11-11T18:58:38Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z) - Session-Aware Query Auto-completion using Extreme Multi-label Ranking [61.753713147852125]
本稿では,セッション対応クエリ自動補完の新たな手法を,XMR(Multi Multi-Xtreme Ranking)問題として取り上げる。
アルゴリズムのキーステップにいくつかの修正を提案することにより、この目的のために一般的なXMRアルゴリズムを適応させる。
当社のアプローチは、セッション情報を活用しながら、自動補完システムの厳しいレイテンシ要件を満たします。
論文 参考訳(メタデータ) (2020-12-09T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。