論文の概要: Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale
- arxiv url: http://arxiv.org/abs/2602.05447v1
- Date: Thu, 05 Feb 2026 08:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.848803
- Title: Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale
- Title(参考訳): ファイルNative Agentic Systemsのための構造化コンテキストエンジニアリング: スキーマの精度評価、有効性予測、大規模マルチファイルナビゲーション
- Authors: Damon McMillan,
- Abstract要約: 大規模言語モデルエージェントは、プログラムインターフェイスを介してシステムを操作するようになっている。
しかし、実践者は、これらのエージェントが消費するコンテキストを構造化する方法に関する経験的なガイダンスを欠いている。
11のモデル、4のフォーマット、10から10,000のテーブルのスキーマにまたがるコンテキストエンジニアリングの体系的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model agents increasingly operate external systems through programmatic interfaces, yet practitioners lack empirical guidance on how to structure the context these agents consume. Using SQL generation as a proxy for programmatic agent operations, we present a systematic study of context engineering for structured data, comprising 9,649 experiments across 11 models, 4 formats (YAML, Markdown, JSON, Token-Oriented Object Notation [TOON]), and schemas ranging from 10 to 10,000 tables. Our findings challenge common assumptions. First, architecture choice is model-dependent: file-based context retrieval improves accuracy for frontier-tier models (Claude, GPT, Gemini; +2.7%, p=0.029) but shows mixed results for open source models (aggregate -7.7%, p<0.001), with deficits varying substantially by model. Second, format does not significantly affect aggregate accuracy (chi-squared=2.45, p=0.484), though individual models, particularly open source, exhibit format-specific sensitivities. Third, model capability is the dominant factor, with a 21 percentage point accuracy gap between frontier and open source tiers that dwarfs any format or architecture effect. Fourth, file-native agents scale to 10,000 tables through domain-partitioned schemas while maintaining high navigation accuracy. Fifth, file size does not predict runtime efficiency: compact formats can consume significantly more tokens at scale due to format-unfamiliar search patterns. These findings provide practitioners with evidence-based guidance for deploying LLM agents on structured systems, demonstrating that architectural decisions should be tailored to model capability rather than assuming universal best practices.
- Abstract(参考訳): 大規模言語モデルエージェントは、プログラムインターフェイスを通じて外部システムを操作する傾向にあるが、実践者は、これらのエージェントが消費するコンテキストを構造化する方法に関する経験的なガイダンスを欠いている。
プログラムエージェント操作のプロキシとしてSQL生成を用いると、11モデルにわたる9,649の実験、YAML、Markdown、JSON、Token-Oriented Object Notation(TOON)の4つのフォーマット、および10~10,000のテーブルからなる構造化データに対するコンテキストエンジニアリングの体系的研究を行う。
私たちの発見は一般的な仮定に挑戦する。
ファイルベースのコンテキスト検索はフロンティア層のモデルの精度(Claude, GPT, Gemini; +2.7%, p=0.029)を改善するが、オープンソースモデルの混合結果(-7.7%, p<0.001)はモデルによって大きく異なる。
第2に、フォーマットは集約精度(chi-squared=2.45, p=0.484)に大きな影響を与えないが、個々のモデル、特にオープンソースは、フォーマット固有の感度を示す。
第3に、モデル能力が支配的な要因であり、フロンティア層とオープンソース層の間の21パーセントの精度差が、フォーマットやアーキテクチャの影響を軽視している。
第4に、ファイルネイティブエージェントは、高いナビゲーション精度を維持しながら、ドメイン分割スキーマを通じて1万のテーブルにスケールする。
第5に、ファイルサイズは実行時の効率を予測しない: コンパクトなフォーマットは、フォーマットに精通しない検索パターンのために、スケールにおいてはるかに多くのトークンを消費することができる。
これらの結果から,LLMエージェントを構造化システムにデプロイするためのエビデンスに基づくガイダンスが得られた。
関連論文リスト
- OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework [5.863391019411233]
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-04T21:48:11Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks [3.3705400036304205]
セマンティックドリフト(Semantic drift)は、データとガバナンスを妥協し、テキストからRAGまでのサービスの有用性を損なう。
本稿では,多言語エンタープライズパイプラインスクリプトから細粒度スキーマを自動抽出するフレームワークを提案する。
結果:単一推論トレースを使用した32Bオープンソースモデルは、標準プロンプトの下でGPTシリーズに匹敵するパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-08-10T05:04:32Z) - AI-assisted JSON Schema Creation and Mapping [0.0]
本稿では,大規模言語モデル(LLM)と決定論的手法を組み合わせて,ユーザによる自然言語入力に基づく生成,修正,スキーママッピングを実現するハイブリッドアプローチを提案する。
この作業は、非専門家のための構造化データモデリングとデータ統合に対する障壁を著しく減らします。
論文 参考訳(メタデータ) (2025-08-07T09:27:10Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - Why Personalizing Deep Learning-Based Code Completion Tools Matters [55.39571645315926]
2つの組織(ApacheとSpring)から136人の開発者、2つのモデルアーキテクチャ(T5とCode Llama)、3つのモデルサイズ(60M、750M、および7Bのトレーニング可能なパラメータ)を考える。
Code Llamaモデル(7B)では、すでにトレーニング済みのモデルのパフォーマンスをオンラインで公開し、同じモデルを組織や開発者固有のデータセットに基づいて微調整しました。
以上の結果から,組織別および開発者別追加微調整による予測能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-03-18T12:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。