論文の概要: When Agents Go Quiet: Output Generation Capacity and Format-Cost Separation for LLM Document Synthesis
- arxiv url: http://arxiv.org/abs/2604.16736v1
- Date: Fri, 17 Apr 2026 22:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.810389
- Title: When Agents Go Quiet: Output Generation Capacity and Format-Cost Separation for LLM Document Synthesis
- Title(参考訳): LLM文書作成のための出力生成能力とフォーマット-コスト分離
- Authors: Justice Owusu Agyemang, Michael Agyare, Miriam Kobbinah, Nathaniel Agbugblah, Prosper Addo,
- Abstract要約: LLMを用いた符号化エージェントは、出力停止という、よく理解されていない障害モードに悩まされる。
本稿では、この失敗を3つの貢献を通じて説明し、予防する理論的枠組みを提案する。
我々は、オープンソースのMPPサーバであるGEN-PILOTとしてフレームワークをインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-powered coding agents suffer from a poorly understood failure mode we term output stalling: the agent silently produces empty responses when attempting to generate large, format-heavy documents. We present a theoretical framework that explains and prevents this failure through three contributions. (1) We introduce Output Generation Capacity (OGC), a formal measure of an agent's effective ability to produce output given its current context state - distinct from and empirically smaller than the raw context window. (2) We prove a Format-Cost Separation Theorem showing that deferred template rendering is always at least as token-efficient as direct generation for any format with overhead multiplier $μ_f > 1$, and derive tight bounds on the savings. (3) We formalize Adaptive Strategy Selection, a decision framework that maps the ratio of estimated output cost to available OGC into an optimal generation strategy (direct, chunked, or deferred). We validate the theory through controlled experiments across three models (Claude 3.5 Sonnet, GPT-4o, Llama 3.1 70B), four document types, and an ablation study isolating each component's contribution. Deferred rendering reduces LLM generation tokens by 48-72% across all conditions and eliminates output stalling entirely. We instantiate the framework as GEN-PILOT, an open-source MCP server, demonstrating that the theory translates directly into a practical tool.
- Abstract(参考訳): LLMを利用したコーディングエージェントは、十分に理解されていない障害モードに苦しむ。
本稿では、この失敗を3つの貢献を通じて説明し、予防する理論的枠組みを提案する。
1)出力生成能力(OGC: Output Generation Capacity)は、エージェントが現在のコンテキスト状態から出力を生成できることの正式な尺度であり、生のコンテキストウィンドウとは区別され、経験的に小さくなっている。
2) 遅延テンプレートレンダリングは, オーバーヘッド乗算器$μ_f > 1$の任意のフォーマットに対して, 常にトークン・エフェクトであることを示す Format-Cost 分離定理を証明し, 保存の厳密な境界を導出する。
3 適応戦略選択(Adaptive Strategy Selection)は、推定出力コストと利用可能なOGCとの比率を最適生成戦略(ダイレクト、チャンク、遅延)にマッピングする決定フレームワークである。
我々は,3つのモデル(Claude 3.5 Sonnet, GPT-4o, Llama 3.1 70B),4つのドキュメントタイプ,および各コンポーネントの寄与を分離するアブレーションによる理論の検証を行った。
Deferredレンダリングは全ての条件でLCM生成トークンを48~72%削減し、出力の停止を完全に排除する。
我々は、このフレームワークをオープンソースのMPPサーバであるGEN-PILOTとしてインスタンス化し、理論が直接実用的なツールに変換されることを実証する。
関連論文リスト
- RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文 参考訳(メタデータ) (2026-02-28T14:47:34Z) - The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation [24.019381388104236]
本稿では,パターン発見と構造認識伝達を協調最適化問題として扱う統合フレームワークであるSCoTERを提案する。
具体的には、SCoTERは、自動パターン検出のためのGVMパイプラインと、ステップワイズロジックを効率的なモデルに転送する構造保存統合アーキテクチャという、2つの相乗的コンポーネントを通じてこれを運用する。
論文 参考訳(メタデータ) (2025-11-24T03:00:04Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - SLOT: Structuring the Output of Large Language Models [5.683327173793259]
SLOT(Structured LLM Output Transformer)は,非構造化LCM出力を正確な構造化形式に変換するモデルに依存しない手法である。
この結果から,制約付き復号化による微調整Mistral-7Bモデルでは,ほぼ完全なスキーマ精度が得られた。
特に、Llama-3.2-1Bのようなコンパクトなモデルでさえ、はるかに大きなプロプライエタリなモデルの出力能力にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-05-06T23:29:43Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.91249209658632]
半構造化プルーニング(PBS$2$P)によるプログレッシブバイナリ化を提案し,バイナライゼーションと半構造化プルーニングをシームレスに統合する新しいポストトレーニングフレームワークを提案する。
PBS$2$P は,2進法(SOTA) の2進法を複雑度と下流精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - Graph-DPEP: Decomposed Plug and Ensemble Play for Few-Shot Document Relation Extraction with Graph-of-Thoughts Reasoning [34.85741925091139]
Graph-DPEPフレームワークは、自然言語で提示された三重項の説明思想の背景にある。
我々は,サブグラフに埋め込まれた推論的思考を活用することで,型リスト全体の「アンサンブルプレイ」生成を開発する。
論文 参考訳(メタデータ) (2024-11-05T07:12:36Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。