論文の概要: Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction
- arxiv url: http://arxiv.org/abs/2603.18976v1
- Date: Thu, 19 Mar 2026 14:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.204693
- Title: Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction
- Title(参考訳): ヒトとAIの相互作用における直観的アライメントのための5W3H構造的プロンプトの評価
- Authors: Peng Gang,
- Abstract要約: 我々は人間-AIインタラクションにおける構造化意図表現の枠組みであるPSを評価する。
3つのドメイン(ビジネス、技術、旅行)で60のタスクを調査する。
構造化された意図表現は、人間とAIの相互作用におけるアライメントとユーザビリティを向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language prompts often suffer from intent transmission loss: the gap between what users actually need and what they communicate to AI systems. We evaluate PPS (Prompt Protocol Specification), a 5W3H-based framework for structured intent representation in human-AI interaction. In a controlled three-condition study across 60 tasks in three domains (business, technical, and travel), three large language models (DeepSeek-V3, Qwen-Max, and Kimi), and three prompt conditions - (A) simple prompts, (B) raw PPS JSON, and (C) natural-language-rendered PPS - we collect 540 AI-generated outputs evaluated by an LLM judge. We introduce goal_alignment, a user-intent-centered evaluation dimension, and find that rendered PPS outperforms both simple prompts and raw JSON on this metric. PPS gains are task-dependent: gains are large in high-ambiguity business analysis tasks but reverse in low-ambiguity travel planning. We also identify a measurement asymmetry in standard LLM evaluation, where unconstrained prompts can inflate constraint adherence scores and mask the practical value of structured prompting. A preliminary retrospective survey (N = 20) further suggests a 66.1% reduction in follow-up prompts required, from 3.33 to 1.13 rounds. These findings suggest that structured intent representations can improve alignment and usability in human-AI interaction, especially in tasks where user intent is inherently ambiguous.
- Abstract(参考訳): 自然言語のプロンプトは、ユーザが実際に必要とするものと、AIシステムと通信するものとの間のギャップという、意図的な伝達損失に悩まされることが多い。
人間のAIインタラクションにおける構造化意図表現のための5W3HベースのフレームワークであるPS(Prompt Protocol Specification)を評価する。
3つの領域における60のタスク(ビジネス、技術、旅行)、3つの大きな言語モデル(DeepSeek-V3、Qwen-Max、Kimi)、および3つの迅速な条件 - (A)単純なプロンプト、(B)生PS JSON、(C)自然言語レンダリングPS - の3条件調査において、LLM判事が評価した540のAI生成アウトプットを収集した。
goal_alignmentは、ユーザインテント中心の評価ディメンションであり、レンダリングされたPSSは、このメトリクス上で単純なプロンプトと生のJSONの両方より優れています。
PPSゲインはタスク依存であり、高あいまいなビジネス分析タスクでは大きなゲインであるが、低あいまいな旅行計画では逆になる。
また、制限のないプロンプトが制約の順守スコアをインフレーションし、構造化プロンプトの実用的価値を隠蔽する、標準LCM評価における測定非対称性を同定する。
予備のレトロスペクティブ調査(N = 20)では、さらに3.33ラウンドから1.13ラウンドまで、66.1%のフォローアッププロンプトの削減が示されている。
これらの結果から,構造化意図表現は,特にユーザ意図が本質的に曖昧なタスクにおいて,人間とAIのインタラクションにおけるアライメントとユーザビリティを向上させることが示唆された。
関連論文リスト
- Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation [5.555479009357263]
EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。
1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
論文 参考訳(メタデータ) (2025-09-26T16:42:43Z) - Evaluating LLM Alignment on Personality Inference from Real-World Interview Data [7.061237517845673]
大規模言語モデル(LLM)は、複雑な心理的理解を必要とする役割にますます配備されている。
このような応用の重要な側面である人間の性格特性を解釈する能力は、まだ解明されていない。
本研究では, 半構造化された面接書と, 検証された5つの特徴スコアを組み合わせた新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-09-16T16:54:35Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing [37.92922713921964]
ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。
本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。
論文 参考訳(メタデータ) (2024-05-13T13:21:35Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。