論文の概要: VisDocSketcher: Towards Scalable Visual Documentation with Agentic Systems
- arxiv url: http://arxiv.org/abs/2509.11942v1
- Date: Mon, 15 Sep 2025 14:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.322114
- Title: VisDocSketcher: Towards Scalable Visual Documentation with Agentic Systems
- Title(参考訳): VisDocSketcher:エージェントシステムによるスケーラブルなビジュアルドキュメンテーションを目指して
- Authors: Luís F. Gomes, Xin Zhou, David Lo, Rui Abreu,
- Abstract要約: ビジュアルドキュメンテーションは、開発者が馴染みのないコードを理解する際に直面する認知障壁を減らす効果的なツールである。
既存のアプローチでは、コードから直接、ハイレベルなビジュアルドキュメントを自動生成することはできません。
静的解析とLLMエージェントを組み合わせた最初のエージェントベースのアプローチであるVisDocSketcherを導入し、コード内のキー要素を特定し、対応する視覚的表現を生成する。
- 参考スコア(独自算出の注目度): 11.489877567479702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual documentation is an effective tool for reducing the cognitive barrier developers face when understanding unfamiliar code, enabling more intuitive comprehension. Compared to textual documentation, it provides a higher-level understanding of the system structure and data flow. Developers usually prefer visual representations over lengthy textual descriptions for large software systems. Visual documentation is both difficult to produce and challenging to evaluate. Manually creating it is time-consuming, and currently, no existing approach can automatically generate high-level visual documentation directly from code. Its evaluation is often subjective, making it difficult to standardize and automate. To address these challenges, this paper presents the first exploration of using agentic LLM systems to automatically generate visual documentation. We introduce VisDocSketcher, the first agent-based approach that combines static analysis with LLM agents to identify key elements in the code and produce corresponding visual representations. We propose a novel evaluation framework, AutoSketchEval, for assessing the quality of generated visual documentation using code-level metrics. The experimental results show that our approach can valid visual documentation for 74.4% of the samples. It shows an improvement of 26.7-39.8% over a simple template-based baseline. Our evaluation framework can reliably distinguish high-quality (code-aligned) visual documentation from low-quality (non-aligned) ones, achieving an AUC exceeding 0.87. Our work lays the foundation for future research on automated visual documentation by introducing practical tools that not only generate valid visual representations but also reliably assess their quality.
- Abstract(参考訳): ビジュアルドキュメントは、見慣れないコードを理解するときに開発者が直面する認知障壁を減らす効果的なツールであり、より直感的な理解を可能にする。
テキストドキュメンテーションと比較して、システム構造とデータフローのより高度な理解を提供する。
開発者は通常、大規模なソフトウェアシステムの長いテキスト記述よりも視覚的な表現を好む。
ビジュアルドキュメントの作成は難しく、評価も難しい。
手作業で作成するのは時間を要するため、既存のアプローチでは、コードから直接高レベルのビジュアルドキュメントを自動生成することはできません。
その評価はしばしば主観的であり、標準化と自動化が難しい。
これらの課題に対処するために,エージェント型LCMシステムを用いて視覚的文書を自動的に生成する手法を初めて提案する。
静的解析とLLMエージェントを組み合わせた最初のエージェントベースのアプローチであるVisDocSketcherを導入し、コード内のキー要素を特定し、対応する視覚的表現を生成する。
コードレベルのメトリクスを用いて生成したビジュアルドキュメントの品質を評価するための新しい評価フレームワークであるAutoSketchEvalを提案する。
実験の結果,本手法では74.4%のサンプルに対して,視覚的ドキュメンテーションが有効であることがわかった。
単純なテンプレートベースのベースラインよりも26.7-39.8%改善されている。
我々の評価フレームワークは、高品質(コード整列)なビジュアルドキュメントと低品質(非整列)なドキュメントとを確実に区別することができ、AUCが0.87を超えています。
我々の研究は、有効な視覚表現を生成するだけでなく、その品質を確実に評価する実用的なツールを導入することで、自動化された視覚文書に関する将来の研究の基礎を築いた。
関連論文リスト
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding [18.609441902943445]
VisFocusは、視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより、OCRフリーな手法である。
視覚的エンコーダに入力された文書テキストのスニペットに言語マスキングを用いて,アーキテクチャ拡張と新たな事前学習タスクを組み合わせた。
我々の実験は、このプロンプト誘導型視覚符号化アプローチが性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-07-17T14:16:46Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [88.88844606781987]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。