論文の概要: Structured Intent as a Protocol-Like Communication Layer: Cross-Model Robustness, Framework Comparison, and the Weak-Model Compensation Effect
- arxiv url: http://arxiv.org/abs/2603.29953v1
- Date: Tue, 31 Mar 2026 16:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.851314
- Title: Structured Intent as a Protocol-Like Communication Layer: Cross-Model Robustness, Framework Comparison, and the Weak-Model Compensation Effect
- Title(参考訳): プロトコルライクな通信層としての構造化インテント:クロスモデルロバストネス、フレームワーク比較、弱モデル補償効果
- Authors: Peng Gang,
- Abstract要約: 本稿では、AIモデル、言語、プロンプトフレームワーク間で、確実に構造化された意図表現がいかにユーザ目標を保っているかを検討する。
構造的プロンプトは、非構造的ベースラインに対する言語間スコアのばらつきを著しく低減する。
ユーザ調査では、AIが拡張した5W3Hは、インタラクションラウンドを60%削減し、ユーザの満足度を3.16から4.04に向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How reliably can structured intent representations preserve user goals across different AI models, languages, and prompting frameworks? Prior work showed that PPS (Prompt Protocol Specification), a 5W3H-based structured intent framework, improves goal alignment in Chinese and generalizes to English and Japanese. This paper extends that line of inquiry in three directions: cross-model robustness across Claude, GPT-4o, and Gemini 2.5 Pro; controlled comparison with CO-STAR and RISEN; and a user study (N=50) of AI-assisted intent expansion in ecologically valid settings. Across 3,240 model outputs (3 languages x 6 conditions x 3 models x 3 domains x 20 tasks), evaluated by an independent judge (DeepSeek-V3), we find that structured prompting substantially reduces cross-language score variance relative to unstructured baselines. The strongest structured conditions reduce cross-language sigma from 0.470 to about 0.020. We also observe a weak-model compensation pattern: the lowest-baseline model (Gemini) shows a much larger D-A gain (+1.006) than the strongest model (Claude, +0.217). Under the current evaluation resolution, 5W3H, CO-STAR, and RISEN achieve similarly high goal-alignment scores, suggesting that dimensional decomposition itself is an important active ingredient. In the user study, AI-expanded 5W3H prompts reduce interaction rounds by 60 percent and increase user satisfaction from 3.16 to 4.04. These findings support the practical value of structured intent representation as a robust, protocol-like communication layer for human-AI interaction.
- Abstract(参考訳): 構造化されたインテント表現は、さまざまなAIモデル、言語、およびプロンプトフレームワークにわたって、ユーザ目標を確実に保持できるだろうか?
5W3Hをベースとした構造化意図フレームワークであるPS(Prompt Protocol Specification)は、中国語の目標アライメントを改善し、英語と日本語に一般化することを示した。
本稿では,Claude,GPT-4o,Gemini 2.5 Proを横断するクロスモデルロバスト性,CO-STARおよびRISENとの比較,および,生態学的に有効な環境におけるAI支援意図拡張のユーザスタディ(N=50)の3つの方向性について検討する。
独立審査員(DeepSeek-V3)により評価された3,240以上のモデル出力(3言語 x 6 条件 x 3 ドメイン x 3 ドメイン x 20 タスク)により、構造化されたプロンプトが非構造的ベースラインに対する言語間スコアのばらつきを著しく低減することがわかった。
最も強い構造条件は、言語間のシグマを0.470から0.020に減少させる。
最低ベースラインモデル(Gemini)は、最強モデル(Claude, +0.217)よりもはるかに大きいD-Aゲイン(+1.006)を示す。
現状の評価では, 5W3H, CO-STAR, RISENが同様に高いゴールアライメントスコアを達成し, 次元分解自体が重要な有効成分であることが示唆された。
ユーザ調査では、AIが拡張した5W3Hは、インタラクションラウンドを60%削減し、ユーザの満足度を3.16から4.04に向上させる。
これらの知見は、構造化意図表現の実践的価値を、人間-AIインタラクションのための堅牢でプロトコル的なコミュニケーション層として支持する。
関連論文リスト
- Does Structured Intent Representation Generalize? A Cross-Language, Cross-Model Empirical Study of 5W3H Prompting [0.0]
人-AIインタラクションにおける構造化意図表現のための 5W3H ベースのフレームワーク PPS について検討した。
AIによって拡張された5W3Hプロンプトは、手作業による5W3Hプロンプトと、ゴールアライメントの統計的に有意な差は示さない。
また、非構造的プロンプトは系統的な二重インフレーションバイアスを示すことを示す。
論文 参考訳(メタデータ) (2026-03-26T12:29:42Z) - Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction [0.0]
我々は人間-AIインタラクションにおける構造化意図表現の枠組みであるPSを評価する。
3つのドメイン(ビジネス、技術、旅行)で60のタスクを調査する。
構造化された意図表現は、人間とAIの相互作用におけるアライメントとユーザビリティを向上させることができる。
論文 参考訳(メタデータ) (2026-03-19T14:41:06Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - SAGE: A Realistic Benchmark for Semantic Understanding [9.688555356614044]
SAGE(Semantic Alignment & Generalization Evaluation)は,埋め込みモデルと類似度指標の両方を評価するための厳密なベンチマークである。
9つの埋め込みモデルと古典的なメトリクスを総合的に評価すると、大きなパフォーマンスのギャップが明らかになる。
OpenAI のtext-embedding-3-small が最も高いクラスタリング性能 (0.483) を達成するが、最低ロバストネススコア (0.011) で極端に脆さを示す。
論文 参考訳(メタデータ) (2025-09-25T15:27:15Z) - Prompting Strategies for Language Model-Based Item Generation in K-12 Education: Bridging the Gap Between Small and Large Language Models [5.584522240405349]
本研究では、言語モデルを用いた自動生成(AIG)を用いて、形態的評価のための複数選択質問(MCQ)を作成する。
ゼロショット,少数ショット,チェーンオブ思考,ロールベース,シーケンシャル,組み合わせを含む7つの構造化プロンプト戦略を評価した。
その結果,構造的プロンプト,特にチェーン・オブ・シンクショナルデザインとシーケンシャルデザインを組み合わせた戦略はGemmaの出力を大幅に改善した。
論文 参考訳(メタデータ) (2025-08-27T18:54:32Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。