論文の概要: View-oriented Conversation Compiler for Agent Trace Analysis
- arxiv url: http://arxiv.org/abs/2603.29678v2
- Date: Wed, 01 Apr 2026 13:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.628161
- Title: View-oriented Conversation Compiler for Agent Trace Analysis
- Title(参考訳): エージェントトレース分析のためのビュー指向会話コンパイラ
- Authors: Lvmin Zhang, Maneesh Agrawala,
- Abstract要約: 本稿では、生エージェントLログを構造化ビューファミリに変換するVCC(View-oriented Conversation Compiler)を提案する。
AppWorldの実験では、rawLからVCCコンパイルされたビューまで、リフレクタの入力フォーマットのみを置き換えることで、3つのモデル構成全体のパスレートが向上する。
これらの結果は、メッセージフォーマットがコンテキストエンジニアリングの基盤として機能し、偶発的な実装選択としてではないことを示唆している。
- 参考スコア(独自算出の注目度): 32.00791796013423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent traces carry increasing analytical value in agentic systems and context engineering, yet most prior work treats conversation format as a trivial implementation detail. Modern agent conversations, however, contain deeply structured content, including nested tool calls and results, chain-of-thought reasoning blocks, sub-agent invocations, context-window compaction boundaries, and harness-injected system directives, whose complexity far exceeds that of simple user-assistant exchanges. Feeding such traces to a reflector or other analytical mechanism in plain text, JSON, YAML, or via grep can materially degrade analysis quality. This paper presents VCC (View-oriented Conversation Compiler), a compiler (lex, parse, IR, lower, emit) that transforms raw agent JSONL logs into a family of structured views: a full view (lossless transcript serving as the canonical line-number coordinate system), a user-interface (UI) view (reconstructing the interaction as the user actually perceived it), and an adaptive view (a structure-preserving projection governed by a relevance predicate). In a context-engineering experiment on AppWorld, replacing only the reflector's input format, from raw JSONL to VCC-compiled views, leads to higher pass rates across all three model configurations tested, while cutting reflector token consumption by half to two-thirds and producing more concise learned memory. These results suggest that message format functions as infrastructure for context engineering, not as an incidental implementation choice.
- Abstract(参考訳): エージェントトレースはエージェントシステムやコンテキストエンジニアリングにおいて分析的価値を増大させるが、以前のほとんどの作業では、会話形式を簡単な実装の詳細として扱う。
しかし、現代のエージェントの会話は、ネストされたツールコールや結果、チェーンオブ思考の推論ブロック、サブエージェントの呼び出し、コンテキスト-ウィンドウのコンパクト化境界、ハーネス注入されたシステムディレクティブなど、深く構造化された内容を含んでいる。
このようなトレースをプレーンテキスト、JSON、YAML、あるいはgrepを通じてリフレクタや他の分析メカニズムにフィードすることは、分析品質を著しく低下させる可能性がある。
本稿では、VCC(View-oriented Conversation Compiler)、コンパイラ(lex, parse, IR, lower, emit)、生エージェントJSONLログを構造化されたビューのファミリに変換する。
AppWorldのコンテキストエンジニアリング実験では、生のJSONLからVCCコンパイルされたビューに至るまで、リフレクタの入力フォーマットのみを置き換えて、テスト対象の3つのモデル構成すべてに対して、より高いパスレートを実現すると同時に、リフレクタトークンの消費量を半分から3分の2に削減し、より簡潔な学習メモリを生成する。
これらの結果は、メッセージフォーマットがコンテキストエンジニアリングの基盤として機能し、インシデントな実装選択としてではないことを示唆している。
関連論文リスト
- Referring Video Object Segmentation with Cross-Modality Proxy Queries [23.504655272754587]
Referring Video Object segmentation (RVOS)は、与えられたテキスト表現によって参照される対象オブジェクトのピクセルレベルマップを生成することを目的とした、新たなクロスモーダルタスクである。
近年のアプローチでは、条件付きクエリによるモダリティアライメントに対処し、クエリ応答に基づくメカニズムを用いて対象オブジェクトを追跡する。
本稿では,視覚とテキストのセマンティクスを統合するためのプロキシクエリセットを導入するProxyFormerという新しいRVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-11-26T07:45:41Z) - IUT-Plug: A Plug-in tool for Interleaved Image-Text Generation [23.61167100602915]
IUT-Plugはイメージ理解ツリー(IUT)に基盤を置くモジュールである
動的IUT-Plug抽出モジュールは、視覚シーンを階層的なシンボル構造に解析する。
協調した物語フローと画像合成機構は、相互整合性を保証する。
論文 参考訳(メタデータ) (2025-10-13T03:19:45Z) - ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。
画像除去・分離方式のタスクチェイン・コンポジトリを提案する。
また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文 参考訳(メタデータ) (2025-06-04T10:06:32Z) - Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DialoGen: Generalized Long-Range Context Representation for Dialogue
Systems [36.23733762476647]
一般化された文脈表現を持つ対話生成のための新しいフレームワークであるDialoGenを提案する。
提案手法が対話生成(オープンドメイン)と理解(DST)の両方に与える影響について検討する。
論文 参考訳(メタデータ) (2022-10-12T15:05:28Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。