論文の概要: Revisable by Design: A Theory of Streaming LLM Agent Execution
- arxiv url: http://arxiv.org/abs/2604.23283v1
- Date: Sat, 25 Apr 2026 12:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.251201
- Title: Revisable by Design: A Theory of Streaming LLM Agent Execution
- Title(参考訳): 設計の見直し:LLMエージェントのストリーミング実行の理論
- Authors: Zhiyuan Zhai, Ming Li, Xin Wang,
- Abstract要約: 本稿では,エージェントの実行とユーザの介入を同時に行うストリームパラダイムを提案する。
我々は、矛盾する補償可能な行為が避けられない適応コストを課し、矛盾する不可逆的な行為が完全な仕様満足度を不可能にすることを示す。
軽度仮定の下で構造的に最適であるEariest-Conflict Rollback則に基づくリアクティブアルゴリズムであるRevision Absorberを提案する。
- 参考スコア(独自算出の注目度): 10.580232912847212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current LLM agents operate under an implicit but universal assumption: execution is a transaction -- the user submits a request, the agent works in isolation, and only upon completion does the dialogue resume. This forces users into a binary choice: wait for a potentially incorrect output, or interrupt and lose all progress. We reject this assumption and propose the stream paradigm, in which agent execution and user intervention are concurrent, interleaved processes sharing a bidirectional channel. We formalize this paradigm through a reversibility taxonomy that classifies every agent action as Idempotent, Reversible, Compensable, or Irreversible, and arrive at a core conclusion: an agent's flexibility is bounded by its reversibility. We prove that conflicting compensable actions impose unavoidable adaptation costs and that conflicting irreversible actions make full specification satisfaction impossible -- these costs are properties of the action space, not of the algorithm. Guided by this insight, we present the Revision Absorber, a reactive algorithm based on the Earliest-Conflict Rollback rule that is structurally optimal under mild assumptions. Experiments on StreamBench with real LLM agents validate all predictions: the Absorber matches the quality of a brute-force full-restart baseline while wasting an order of magnitude fewer steps of already-completed work, turning mid-execution revisions from a dead-end into a first-class interaction.
- Abstract(参考訳): 現在のLLMエージェントは暗黙的だが普遍的な仮定の下で動作している: 実行はトランザクションであり、ユーザーは要求を提出し、エージェントは単独で動作し、完了時にのみ対話を再開する。これにより、ユーザは二項選択に強制される: 潜在的に不正確な出力を待つか、または全ての進捗を中断する。我々はこの仮定を拒絶し、エージェントの実行とユーザーの介入が並行で、双方向チャネルを共有するインターリーブされたプロセスを提案する。我々は、このパラダイムを、すべてのエージェントアクションを直感的、可逆的、補償可能、あるいは不可逆的と分類する可逆性分類を通じて形式化し、その中核的な結論に達する: エージェントの柔軟性が可逆性によって束縛されていることを証明する。
この知見に導かれ、軽度の仮定の下で構造的に最適であるEariest-Conflict Rollback則に基づくリアクティブアルゴリズムであるRevision Absorberを提示する。
Absorberはブルートフォースのフルリスタートベースラインの品質と一致し、すでに完了した作業の桁違いに少ないステップを浪費し、実行中の修正をデッドエンドからファーストクラスのインタラクションに転換する。
関連論文リスト
- Efficient Agent Evaluation via Diversity-Guided User Simulation [7.723545220477047]
DIVERTは、エージェント-ユーザインタラクションを体系的に探索するための、スナップショットベースの、カバレッジガイド付きユーザーシミュレーションフレームワークである。
重要な決定ポイントでエージェント環境の全状態をキャプチャし、これらのスナップショットから実行を再開する。
DIVERTは、意味的に多様性があり、探索されていない軌道に焦点を合わせることにより、効率とカバレッジの両方を改善している。
論文 参考訳(メタデータ) (2026-04-23T09:41:21Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents [11.440330367799513]
PRISMは、決定論的ゲートとデュアルプロセス推論アーキテクチャを結合する新しいフレームワークである。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた私たちは、受け入れ校正されたコスト由来の閾値でゲートする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
論文 参考訳(メタデータ) (2026-02-02T01:56:29Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。