論文の概要: CommandSwarm: Safety-Aware Natural Language-to-Behavior-Tree Generation for Robotic Swarms
- arxiv url: http://arxiv.org/abs/2605.07764v1
- Date: Fri, 08 May 2026 14:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.09484
- Title: CommandSwarm: Safety-Aware Natural Language-to-Behavior-Tree Generation for Robotic Swarms
- Title(参考訳): CommandSwarm:ロボット群のための安全に配慮した自然言語行動生成
- Authors: Mohammed Majid, Amjad Yousef Majid,
- Abstract要約: 本稿では,音声やテキストのコマンドからXML行動木(BT)を生成するための安全対応型言語to-behavior-treeパイプラインであるCommandSwarmを提案する。
このシステムは多言語翻訳、コマンドレベルの安全フィルタリング、制約付きプロンプト、LoRA対応の大規模言語モデル(LLM)、および4ビットプリミティブに対する決定論的検証を組み合わせる。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural-language interfaces can make swarm robotics more accessible to non-expert operators, but they must translate ambiguous user intent into executable swarm behaviors without unsupported actions, malformed programs, or unsafe plans. This paper presents CommandSwarm, a safety-aware language-to-behavior-tree pipeline for generating XML behavior trees (BTs) from speech or text commands. The system combines multilingual translation, command-level safety filtering, constrained prompting, a LoRA-adapted large language model (LLM), and deterministic parser validation against a whitelist of executable swarm primitives. We evaluate eleven open 6.7B--14B parameter LLMs, all using 4-bit quantization, on representative swarm-control scenarios under zero-shot, one-shot, and two-shot prompting. Falcon3-Instruct-10B and Mistral-7B-v3 are the strongest prompt-engineered candidates, reaching BLEU scores above 0.60 and high syntactic validity in few-shot settings. LoRA adaptation of Falcon3-Instruct-10B on a 2,063-example synthetic instruction--BT corpus improves zero-shot BLEU from 0.267 to 0.663, ROUGE-L from 0.366 to 0.692, and parser-accepted syntactic validity from 0% to 72%. Translation experiments further show that SeamlessM4T v2-large and EuroLLM-9B provide the best quality-latency trade-offs for the multilingual front end. The results indicate that compact, quantized, domain-adapted LLMs can generate useful swarm BTs when embedded in a validated systems pipeline. They also show that parser acceptance and safety filtering remain necessary execution gates; generation quality alone is not sufficient for autonomous deployment.
- Abstract(参考訳): 自然言語インタフェースは、Swarmロボティクスを専門家でないオペレーターに使いやすくするが、不明確なユーザー意図を、サポートされたアクション、不正なプログラム、または安全でない計画なしで実行可能なSwarm動作に変換する必要がある。
本稿では,音声やテキストのコマンドからXML行動木(BT)を生成するための安全対応型言語to-behavior-treeパイプラインであるCommandSwarmを提案する。
このシステムは多言語翻訳、コマンドレベルの安全フィルタリング、制約付きプロンプト、LoRA対応の大規模言語モデル(LLM)、および実行可能なswarmプリミティブのホワイトリストに対する決定論的パーサ検証を組み合わせる。
我々は,0ショット,1ショット,2ショットのプロンプトにおいて,11個のオープン6.7B--14BパラメータLSMを4ビット量子化を用いて評価した。
Falcon3-Instruct-10BとMistral-7B-v3は最強のプロンプトエンジン搭載候補であり、BLEUのスコアは0.60を超え、数発設定で高い構文上の妥当性を持つ。
Falcon3-Instruct-10Bの2,063サンプルの合成命令-BTコーパスによるロラ適応は、ゼロショットBLEUを0.267から0.663に改善し、ROUGE-Lを0.366から0.692に、パーサーが許容する構文妥当性を0%から72%に改善した。
翻訳実験により、SeamlessM4T v2-largeとEuroLLM-9Bが多言語フロントエンドの最良の品質-レイテンシトレードオフを提供することが示された。
その結果、検証されたシステムパイプラインに組み込むと、コンパクトで量子化されたドメイン適応型LLMが有用なSwarm BTを生成できることが示唆された。
また、パーサの受け入れと安全性のフィルタリングは依然として必要な実行ゲートであり、生成品質だけでは自律的なデプロイメントには不十分であることも示している。
関連論文リスト
- How Code Representation Shapes False-Positive Dynamics in Cross-Language LLM Vulnerability Detection [8.360057179027322]
言語間の脆弱性検出において、コード表現形式がどのように偽陽性行動を形成するかは、まだ理解されていない。
学習時間と推論時間の両方で、原文と刈り取られた抽象構文木を比較し、学習強度とコード表現形式を体系的に変化させる。
言語間のFPRは、トレーニング時間と推論時間の両方の表現の合同効果を反映している。
論文 参考訳(メタデータ) (2026-04-30T11:01:03Z) - ClawEnvKit: Automatic Environment Generation for Claw-Like Agents [85.29126619772153]
我々は、オンデマンドで検証された環境を生成することができる自動生成パイプラインであるClawEnvKitを紹介する。
ClawEnvKitは、(1)自然言語入力から構造化生成パラメータを抽出するパイプライン、(2)タスク仕様、ツールインターフェース、スコアリング設定を生成するジェネレータ、(3)実現可能性、多様性、構造的妥当性、内部整合性を強制するバリデータからなる。
爪のようなエージェントの大規模なベンチマークであるAuto-ClawEvalを構築し、24のカテゴリで1,040の環境を網羅した。
論文 参考訳(メタデータ) (2026-04-20T17:36:49Z) - Precise Robot Command Understanding Using Grammar-Constrained Large Language Models [1.7166030977364601]
大規模言語モデル(LLM)は、安全で実行可能な産業コマンドに必要なドメイン固有の剛性を欠いていることが多い。
本稿では,文法駆動自然言語理解システム(NLU)を統合した文法制約付きLLMを提案する。
提案モデルの主な特徴は検証とフィードバックのループであり、初期解釈エラーからモデルが回復することを可能にする。
論文 参考訳(メタデータ) (2026-04-05T19:30:54Z) - Anka: A Domain-Specific Language for Reliable LLM Code Generation [0.0]
大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。
明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。
Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
論文 参考訳(メタデータ) (2025-12-29T05:28:17Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - LLM Encoder vs. Decoder: Robust Detection of Chinese AI-Generated Text with LoRA [4.104443734934105]
我々は、エンコーダベースのトランスフォーマー(中国のBERTラージとRoBERTa-wwm-ext-large)、デコーダのみのLCM(アリババのQwen2.5-7B/Deep-R1-Distill-Qwen-7B)、およびFastTextベースラインを比較した。
実験により、エンコーダモデルはトレーニングデータをほとんど記憶しているが、分散シフト時に顕著な性能劣化を被っていることが明らかになった。
論文 参考訳(メタデータ) (2025-08-31T07:51:22Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Causal Language Control in Multilingual Transformers via Sparse Feature Steering [7.754609745940422]
マルチ言語モデルの生成言語を操るために,スパースオートエンコーダの機能を活用できるかどうかを検討する。
我々は、FastText言語分類によって測定された、最大90%の成功で制御された言語シフトを達成する。
解析の結果,言語ステアリングは中間から後期のトランスフォーマー層において最も効果的であることが判明した。
論文 参考訳(メタデータ) (2025-07-17T06:49:16Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。