論文の概要: PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures
- arxiv url: http://arxiv.org/abs/2605.16551v1
- Date: Fri, 15 May 2026 18:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.688094
- Title: PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures
- Title(参考訳): PQR: QAエージェント障害を緩和する多変量およびリアリスティックなユーザクエリを生成するフレームワーク
- Authors: Yunan Lu, Luigi Liu, Omar Yahia, Arpit Sharma, Zhou Yu,
- Abstract要約: PQRは、特定の目的に対してエージェントの障害をサーフェスするフレームワークである。
電子商取引のQAエージェントの応答検出におけるPQRの評価を行った。
- 参考スコア(独自算出の注目度): 13.33442214432416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating LLM-based agents remains challenging because identifying meaningful failure cases often requires substantial human effort to design realistic test scenarios. Prior works primarily focus on automatically discovering agent failures induced by adversarial users, while overlooking queries with real user intents that also trigger agent failures. We introduce PQR, a framework that not only surfaces agent failures with respect to specific objectives (e.g., helpfulness, safety, etc.) but also resembles real users' intents. PQR operates through an iterative interaction between two complementary modules. The query refinement module performs rewrites to explore diverse query variations, while the prompt refinement module uses prior feedback to derive new objective-violating strategies and realism policies for refining prompts, which in turn generate failure-triggering yet realistic queries. We evaluate PQR on detecting an e-commerce QA agent's unhelpful responses. Our method uncovers 23% - 78% more unhelpful responses, and our generated queries are more diverse and realistic compared to previous methods.
- Abstract(参考訳): LLMベースのエージェントを評価することは、現実的なテストシナリオを設計する上で、意味のある障害ケースを特定することが必要な場合が多いため、依然として困難である。
先行研究は主に、敵のユーザによって引き起こされるエージェントの障害を自動的に検出すると同時に、エージェントの障害を引き起こす実際のユーザ意図によるクエリを見渡すことに焦点を当てている。
PQRは、特定の目的(例えば、有用性、安全性など)に関してエージェントの障害を表面化するだけでなく、実際のユーザの意図に類似するフレームワークである。
PQRは2つの相補的なモジュール間の反復的な相互作用を介して動作する。
クエリリファインメントモジュールは、さまざまなクエリのバリエーションを探索するために書き直しを実行する一方で、プロンプトリファインメントモジュールは、事前のフィードバックを使用して、新しい客観的違反戦略とリアリズムポリシーを導出し、プロンプトを精査する。
電子商取引のQAエージェントの応答検出におけるPQRの評価を行った。
提案手法では,23%~78%の非ヘルパフル応答が得られ,生成したクエリは従来手法よりも多様でリアルである。
関連論文リスト
- FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - Query Suggestion for Retrieval-Augmented Generation via Dynamic In-Context Learning [42.850404278428954]
我々は、関連するユーザクエリからサンプルを検索する頑健な動的数ショット学習を導入する。
本研究では,例えば事前のユーザクエリでは自己学習が可能であり,実際に容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2026-01-13T00:56:38Z) - Is Agentic RAG worth it? An experimental comparison of RAG approaches [0.07777489763207261]
検索・拡張生成システムは通常、ジェネレータと検索コンポーネントの組み合わせで定義される。
これらの欠点は「強化されたRAG」の開発を動機づけている。
大規模言語モデルの自己回帰能力の増大により,新たなパラダイムが実現した。
論文 参考訳(メタデータ) (2026-01-12T16:43:44Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - QAgent: A modular Search Agent with Interactive Query Understanding [25.147900132089777]
大規模言語モデルは自然言語処理に優れるが、静的パラメトリック知識によって制限される。
本稿では,適応検索に検索エージェントを用いる統一エージェントRAGフレームワークを提案する。
実験ではQAでQAgentが優れていることを示し、実世界のデプロイのためのプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2025-10-09T16:08:05Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - CLEAR-KGQA: Clarification-Enhanced Ambiguity Resolution for Knowledge Graph Question Answering [13.624962763072899]
KGQAシステムは通常、ユーザクエリは曖昧であると仮定するが、これは現実世界のアプリケーションではめったに行われない仮定である。
本稿では,対話的明確化を通じて,エンティティのあいまいさ(類似した名前を持つエンティティの区別など)と意図のあいまいさ(ユーザクエリの異なる解釈を明確にするなど)を動的に扱う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-13T17:34:35Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。