論文の概要: QuadAgent: A Responsive Agent System for Vision-Language Guided Quadrotor Agile Flight
- arxiv url: http://arxiv.org/abs/2604.02786v1
- Date: Fri, 03 Apr 2026 06:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.361241
- Title: QuadAgent: A Responsive Agent System for Vision-Language Guided Quadrotor Agile Flight
- Title(参考訳): QuadAgent: ビジョンランゲージガイド付きクアドロターアジャイル飛行のための応答型エージェントシステム
- Authors: Ao Zhuang, Feng Yu, Tianbao Zhang, Linzuo Zhang, Danping Zou,
- Abstract要約: 視覚言語入力によって誘導されるアジャイル四極子飛行のためのトレーニングフリーエージェントシステムであるQuadAgentを提案する。
フォアグラウンドエージェントはアクティブタスクとユーザコマンドを処理し、バックグラウンドエージェントはルックアヘッド推論を実行する。
システムは、スパースアヘッドから構築された軽量なトポロジカルマップであるImpression Graphを通じてシーンメモリを維持する。
- 参考スコア(独自算出の注目度): 5.175460951783441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present QuadAgent, a training-free agent system for agile quadrotor flight guided by vision-language inputs. Unlike prior end-to-end or serial agent approaches, QuadAgent decouples high-level reasoning from low-level control using an asynchronous multi-agent architecture: Foreground Workflow Agents handle active tasks and user commands, while Background Agents perform look-ahead reasoning. The system maintains scene memory via the Impression Graph, a lightweight topological map built from sparse keyframes, and ensures safe flight with a vision-based obstacle avoidance network. Simulation results show that QuadAgent outperforms baseline methods in efficiency and responsiveness. Real-world experiments demonstrate that it can interpret complex instructions, reason about its surroundings, and navigate cluttered indoor spaces at speeds up to 5 m/s.
- Abstract(参考訳): 視覚言語入力によって誘導されるアジャイル四極子飛行のためのトレーニングフリーエージェントシステムであるQuadAgentを提案する。
従来のエンドツーエンドやシリアルエージェントアプローチとは異なり、QuadAgentは非同期マルチエージェントアーキテクチャを使用した低レベルの制御から高レベルの推論を分離する。
システムは、疎いキーフレームから構築された軽量なトポロジカルマップであるImpression Graphを通じてシーンメモリを保持し、視覚ベースの障害物回避ネットワークで安全な飛行を保証する。
シミュレーションの結果,QuadAgentは効率と応答性においてベースライン法より優れていた。
実世界の実験では、複雑な指示を解釈し、周囲を推論し、散らかった屋内空間を最大5m/sで移動できることが示されている。
関連論文リスト
- HUGE-Bench: A Benchmark for High-Level UAV Vision-Language-Action Tasks [73.62053624331227]
Huge-Benchは高レベルUAVビジョンランゲージ・アクションのベンチマークである。
4つの現実世界のデジタルツインシーン、8つのハイレベルタスク、2.56mの軌跡からなる。
プロセスの忠実度、終端精度、安全性を評価するために、プロセス指向および衝突認識メトリクスを導入する。
論文 参考訳(メタデータ) (2026-03-20T10:08:42Z) - AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。
本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文 参考訳(メタデータ) (2026-03-18T12:43:47Z) - Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems [11.42175340352007]
SupervisorAgentは、ランタイムと適応的な監視のための軽量でモジュール化されたフレームワークです。
SupervisorAgentは、エラーを積極的に修正し、非効率な振る舞いを誘導し、観察を浄化するために、臨界点に介入する。
挑戦的なGAIAベンチマークでは、SupervisorAgentは成功率を損なうことなく、Smolagentフレームワークのトークン消費を平均29.45%削減した。
論文 参考訳(メタデータ) (2025-10-30T15:12:59Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - STEVE: A Step Verification Pipeline for Computer-use Agent Training [84.24814828303163]
STEVEは、コンピュータ使用エージェントトレーニングのためのステップ検証パイプラインである。
GPT-4oは、動作実行前後の画面に基づいて、軌跡の各ステップの正当性を検証するために使用される。
我々のエージェントは、軌道内での正と負の両方の作用を利用して微調整を監督する。
論文 参考訳(メタデータ) (2025-03-16T14:53:43Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。