論文の概要: Context Engineering: A Practitioner Methodology for Structured Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2604.04258v1
- Date: Sun, 05 Apr 2026 20:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.008688
- Title: Context Engineering: A Practitioner Methodology for Structured Human-AI Collaboration
- Title(参考訳): コンテキストエンジニアリング: 構造化された人間-AIコラボレーションのための実践的方法論
- Authors: Elias Calboreanu,
- Abstract要約: 本稿では、AIツールのプロンプトに付随する完全な情報ペイロードの組み立て、宣言、シークエンシングのための構造化手法であるContext Engineeringを紹介する。
4つのAIツール間で200のドキュメント化されたインタラクションに関する観察的研究では、不完全なコンテキストがイテレーションサイクルの72%に関連付けられている。
構造化コンテキストアセンブリは、タスク毎の平均イテレーションサイクルを3.8から2.0に削減し、ファーストパスの受け入れを32%から55%に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of AI-generated output is often attributed to prompting technique, but extensive empirical observation suggests that context completeness may be more strongly associated with output quality. This paper introduces Context Engineering, a structured methodology for assembling, declaring, and sequencing the complete informational payload that accompanies a prompt to an AI tool. Context Engineering defines a five-role context package structure (Authority, Exemplar, Constraint, Rubric, Metadata), applies a staged four-phase pipeline (Reviewer to Design to Builder to Auditor), and applies formal models from reliability engineering and information theory as post hoc interpretive lenses on context quality. In an observational study of 200 documented interactions across four AI tools (Claude, ChatGPT, Cowork, Codex), incomplete context was associated with 72% of iteration cycles. Structured context assembly was associated with a reduction from 3.8 to 2.0 average iteration cycles per task and an improvement in first-pass acceptance from 32% to 55%. Among structured interactions, 110 of 200 were accepted on first pass compared with 16 of 50 baseline interactions; when iteration was permitted, the final success rate reached 91.5% (183 of 200). These results are observational and reflect a single-operator dataset without controlled comparison. Preliminary corroboration is provided by a companion production automation system with eleven operating lanes and 2,132 classified tickets.
- Abstract(参考訳): AI生成された出力の品質は、しばしばプロンプト技術によるものであるが、広範な経験的観察により、文脈完全性は出力品質に強く関連している可能性が示唆されている。
本稿では、AIツールのプロンプトに付随する完全な情報ペイロードの組み立て、宣言、シークエンシングのための構造化手法であるContext Engineeringを紹介する。
コンテキストエンジニアリング(Context Engineering)は、5ロールのコンテキストパッケージ構造(Authority, Exemplar, Constraint, Rubric, Metadata)を定義し、ステージ化された4フェーズのパイプライン(Reviewer to Designer to Auditor)を適用し、信頼性エンジニアリングと情報理論の形式モデルを、コンテキスト品質に関するポストホック解釈レンズとして適用する。
4つのAIツール(Claude、ChatGPT、Cowork、Codex)間で200のドキュメント化されたインタラクションに関する観察的研究において、不完全なコンテキストはイテレーションサイクルの72%に関連していた。
構造化コンテキストアセンブリは、タスク毎の平均イテレーションサイクルを3.8から2.0に削減し、ファーストパスの受け入れを32%から55%に改善した。
構造化された相互作用の中で、最初のパスでは200点中110点が、50点中16点に比較して受け入れられ、反復が許可されると、最終的な成功率は91.5%(200点中183点)に達した。
これらの結果は観察的であり、比較を制御せずに単一の演算データセットを反映する。
プリミティブ・コロンボレーションは、11車線と2,132種類の切符を備えた共同生産自動化システムによって提供される。
関連論文リスト
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略最適化のみで技術の現状を進展させるMinruproを提案する。
mineruproはOmniDocBenchv1.6で95.69を達成し、同じアーキテクチャのベースラインを2.71ポイント改善し、既存のすべてのメソッドを上回った。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - CL4SE: A Context Learning Benchmark For Software Engineering Tasks [7.899464362501583]
コンテキストエンジニアリングは、ソフトウェア工学(SE)タスクにおいて、LLM(Large Language Models)の可能性を解き放つための重要なパラダイムとして登場した。
既存の研究には、SE固有のコンテキストタイプの体系的な分類と、異なるコンテキストの効果を定量化する専用のベンチマークが欠けている。
CL4SE (Context Learning for Software Engineering) は,4つのSE指向のコンテキストタイプを詳細に分類した総合的なベンチマークである。
30以上のオープンソースプロジェクトから13,000以上のサンプルからなる高品質なデータセットを構築し、9つの指標で5つの主流を評価します。
論文 参考訳(メタデータ) (2026-02-26T14:28:57Z) - Engineering Reasoning and Instruction (ERI) Benchmark: A Large Taxonomy-driven Dataset for Foundation Models and Agents [1.629288881045104]
Engineering Reasoning and Instruction (ERI) ベンチマークは、工学能力のある大規模言語モデル(LLM)とエージェントをトレーニングし、評価するために設計された分類による命令データセットである。
このデータセットは、9つの工学分野(土木、機械、電気、化学、環境、航空宇宙、材料、火、産業工学)と55に及び、7つの目的タイプ(定義、説明、計算、比較、設計/合成、トラブルシューティング、コード関連)と3つの困難層(学部、卒業生、プロフェッショナル)にまたがる。
ERIは、分類仕様、検証スクリプト、評価ハーネスと共にリリースされている。
論文 参考訳(メタデータ) (2026-02-16T12:38:08Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data [0.0]
大きな言語モデル(LLM)は強力な生成能力を持つ。
静的事前トレーニング、短いコンテキストウィンドウ、および異種データフォーマットを処理する際の課題によって制限されている。
従来のRetrieval-Augmented Generation (RAG) フレームワークはこれらのギャップのいくつかに対処するが、構造化データや半構造化データに苦慮することが多い。
本研究では,SpaCy NERとクロスエンコーダによるメタデータ認識フィルタリングにより強化された,高密度埋め込み(All-mpnet-base-v2)とBM25を用いたハイブリッド検索戦略を組み合わせた高度なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:13:06Z) - Clarifying Before Reasoning: A Coq Prover with Structural Context [13.273599284897411]
タスクの明度を評価するための概念レベルメトリクスを導入し、構造化された意味コンテキストを追加すると、明度スコアが1.85$times$改善されることを示す。
我々は15の標準Coqパッケージからランダムにサンプリングされた1,386の定理でこれを評価した。
論文 参考訳(メタデータ) (2025-07-03T11:35:34Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。