論文の概要: Airavat: An Agentic Framework for Internet Measurement
- arxiv url: http://arxiv.org/abs/2602.20924v1
- Date: Tue, 24 Feb 2026 14:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.774424
- Title: Airavat: An Agentic Framework for Internet Measurement
- Title(参考訳): Airavat: インターネット計測のためのエージェントフレームワーク
- Authors: Alagappan Ramanathan, Eunju Kang, Dongsu Han, Sangeetha Abdu Jyothi,
- Abstract要約: 本稿では,インターネット計測ワークフロー生成のための最初のエージェントフレームワークであるAiravatについて述べる。
2つの特殊エンジンは、50年間の計測研究をコードする知識グラフの助けを借りて、方法論的正当性を保証する。
筆者らは,Airavatが一致した専門家レベルのソリューションを生成し, (ii) 健全なアーキテクチャ決定を行い, (iii) 根拠のない新しい問題に対処し, (iv) 標準実行ベーステストで欠落した方法論的欠陥を識別することを示した。
- 参考スコア(独自算出の注目度): 4.603598751146948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet measurement faces twin challenges: complex analyses require expert-level orchestration of tools, yet even syntactically correct implementations can have methodological flaws and can be difficult to verify. Democratizing measurement capabilities thus demands automating both workflow generation and verification against methodological standards established through decades of research. We present Airavat, the first agentic framework for Internet measurement workflow generation with systematic verification and validation. Airavat coordinates a set of agents mirroring expert reasoning: three agents handle problem decomposition, solution design, and code implementation, with assistance from a registry of existing tools. Two specialized engines ensure methodological correctness: a Verification Engine evaluates workflows against a knowledge graph encoding five decades of measurement research, while a Validation Engine identifies appropriate validation techniques grounded in established methodologies. Through four Internet measurement case studies, we demonstrate that Airavat (i) generates workflows matching expert-level solutions, (ii) makes sound architectural decisions, (iii) addresses novel problems without ground truth, and (iv) identifies methodological flaws missed by standard execution-based testing.
- Abstract(参考訳): 複雑な分析は、専門家レベルのツールのオーケストレーションを必要とするが、構文的に正しい実装であっても、方法論上の欠陥があり、検証が難しい。
したがって、測定能力の民主化は、何十年もの研究を経て確立された方法論標準に対するワークフロー生成と検証の両方を自動化することを要求する。
本稿では,インターネット計測ワークフロー生成のための最初のエージェントフレームワークであるAiravatについて述べる。
Airavatは、専門家の推論を反映するエージェントのセットをコーディネートする: 3つのエージェントが既存のツールのレジストリの助けを借りて、問題の分解、ソリューション設計、コード実装を処理する。
検証エンジンは50年間の計測研究をコードする知識グラフに対してワークフローを評価し、検証エンジンは確立された方法論に根ざした適切な検証手法を特定する。
4つのインターネット計測ケーススタディを通じて,Airavatが実証された。
i)エキスパートレベルのソリューションにマッチしたワークフローを生成する。
(二)しっかりと建築上の決定をする。
三)根拠のない新しい問題に対処し、
(iv) 標準的な実行ベーステストで欠落した方法論上の欠陥を特定する。
関連論文リスト
- Multi-Agent Systems for Dataset Adaptation in Software Engineering: Capabilities, Limitations, and Future Directions [8.97512410819274]
本稿では,データセット適応タスクにおいて,最先端のマルチエージェントシステムがどのように機能するかについて,最初の実証的研究を行う。
我々は、GitHub Copilotを評価し、ROCODEやLogHub2.0といったベンチマークリポジトリからSE研究成果物を適用する。
その結果、現在のシステムはキーファイルを識別し、部分的な適応を生成することができるが、正しい実装を生成することは滅多にない。
論文 参考訳(メタデータ) (2025-11-26T13:26:11Z) - Towards an Agentic Workflow for Internet Measurement Research [4.603598751146948]
本稿では,エージェントが専門家の推論を模倣した測定を独立して生成できることを実証する最初のシステムであるArachNetを紹介する。
ArachNetは、問題分解からソリューション実装まで、専門家をミラーする4つの専門エージェントを通して運用されている。
論文 参考訳(メタデータ) (2025-11-13T18:44:09Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。
このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。
我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-07T17:49:24Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Revisiting Vulnerability Patch Localization: An Empirical Study and LLM-Based Solution [44.388332647211776]
オープンソースのソフトウェア脆弱性検出は、ソフトウェアのセキュリティを維持し、ソフトウェアサプライチェーンの整合性を確保するための重要なコンポーネントである。
従来の検出方法は、大量のコミット履歴を処理する際に、大きなスケーラビリティの課題に直面している。
バージョン駆動型候補フィルタリングと大規模言語モデルに基づく多ラウンド対話投票を組み合わせた新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T09:09:55Z) - Towards Reliable Forgetting: A Survey on Machine Unlearning Verification [26.88376128769619]
本稿では,機械学習の検証手法に関する最初の構造化された調査について述べる。
本稿では,現在の手法を行動検証とパラメトリック検証の2つの主要なカテゴリに分類する分類法を提案する。
基礎となる仮定、強度、限界を調べ、実践的なデプロイメントにおける潜在的な脆弱性を特定します。
論文 参考訳(メタデータ) (2025-06-18T03:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。