論文の概要: UAVGENT: A Language-Guided Distributed Control Framework
- arxiv url: http://arxiv.org/abs/2602.13212v1
- Date: Sun, 18 Jan 2026 19:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.446533
- Title: UAVGENT: A Language-Guided Distributed Control Framework
- Title(参考訳): UAVGENT: 言語ガイドによる分散制御フレームワーク
- Authors: Ziyi Zhang, Xiyu Deng, Guannan Qu, Yorie Nakahira,
- Abstract要約: 進化的かつ高レベルなミッションを実行するマルチドローンシステムの言語-in-the-loop制御について検討する。
i)人間の操作者が自然言語命令を発行し、(ii)LLMベースの監督者が定期的に命令されたタスクを解釈し、検証し、修正し、(iii)分散インナーループコントローラが結果の参照を追跡する3層アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 15.510733301684716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study language-in-the-loop control for multi-drone systems that execute evolving, high-level missions while retaining formal robustness guarantees at the physical layer. We propose a three-layer architecture in which (i) a human operator issues natural-language instructions, (ii) an LLM-based supervisor periodically interprets, verifies, and corrects the commanded task in the context of the latest state and target estimates, and (iii) a distributed inner-loop controller tracks the resulting reference using only local relative information. We derive a theoretical guarantee that characterizes tracking performance under bounded disturbances and piecewise-smooth references with discrete jumps induced by LLM updates. Overall, our results illustrate how centralized language-based task reasoning can be combined with distributed feedback control to achieve complex behaviors with provable robustness and stability.
- Abstract(参考訳): 本研究では,進化的かつ高レベルなミッションを実行するマルチドローンシステムの言語-in-the-loop制御について検討する。
本稿では,三層構造を提案する。
i) 人間のオペレータが自然言語による指示を発行すること。
2 LLMに基づく監督官は、最新状態及び目標推定の文脈において、定期的に、指示されたタスクを解釈し、検証し、補正する。
三 分散インナーループコントローラは、局所的相対情報のみを用いて、結果の参照を追跡する。
我々は,LLM更新によって引き起こされる離散的なジャンプを伴って,有界な乱れと平滑な参照の追跡性能を特徴付ける理論的保証を導出する。
以上の結果から,集中型言語に基づくタスク推論と分散フィードバック制御を組み合わせることで,頑健さと安定性を証明可能な複雑な動作を実現する方法が示唆された。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities [75.10343190811592]
大規模言語モデル(LLM)は、社会的に敏感なドメインにますますデプロイされる。
私たちのベンチマークでは、安全で制御可能な振る舞いのための原則的で解釈可能なフレームワークを提供しています。
論文 参考訳(メタデータ) (2026-03-03T03:50:13Z) - Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking [6.713814849613683]
視覚言語アクション(VLA)ポリシーは、比較的少数のデモで強力な操作ベンチマーク性能を報告している。
本研究は, オブジェクト配置のばらつきを, 作業空間のランダム化まで徐々に増大させる多目的ピッキング研究である。
SmolVLAや$_0.5$といった代表的VLAポリシでは、操作プリミティブの実行は、命令条件のタスク成功よりもかなり信頼性が高いことが分かりました。
論文 参考訳(メタデータ) (2026-02-27T16:20:04Z) - Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。
本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。
具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。
人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2026-02-10T10:16:27Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Nipping the Drift in the Bud: Retrospective Rectification for Robust Vision-Language Navigation [26.497706746023407]
BudVLNは、現在の状態分布に合わせて監視を構築することで、オンラインのロールアウトから学習するオンラインフレームワークである。
BudVLNは、分散シフトを一貫して軽減し、成功率とSPLの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-06T03:36:27Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Steering Language Models Before They Speak: Logit-Level Interventions [9.055997973281919]
制御可能な生成のためのトレーニング不要な推論時間ロジット介入を提案する。
以上の結果から,ロジットステアリングは大きな,一貫した,マルチタスク制御のゲインを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-16T03:00:33Z) - Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation [52.11339614452127]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T04:32:00Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。