論文の概要: Tactical Decision for Multi-UGV Confrontation with a Vision-Language Model-Based Commander
- arxiv url: http://arxiv.org/abs/2507.11079v1
- Date: Tue, 15 Jul 2025 08:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.03053
- Title: Tactical Decision for Multi-UGV Confrontation with a Vision-Language Model-Based Commander
- Title(参考訳): ビジョンランゲージモデルに基づくマルチUGVコンファレンスのための戦術的決定法
- Authors: Li Wang, Qizhen Wu, Lei Chen,
- Abstract要約: 本稿では,知的知覚-意思決定推論の問題に対処するために,視覚言語モデルに基づくマンガを提案する。
本手法は,シーン理解のための視覚言語モデルと,戦略的推論のための軽量な大規模言語モデルを統合する。
ルールベースの探索と強化学習とは異なり、2つのモジュールの組み合わせはフルチェーンプロセスを確立する。
- 参考スコア(独自算出の注目度): 7.652649478304803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multiple unmanned ground vehicle confrontations, autonomously evolving multi-agent tactical decisions from situational awareness remain a significant challenge. Traditional handcraft rule-based methods become vulnerable in the complicated and transient battlefield environment, and current reinforcement learning methods mainly focus on action manipulation instead of strategic decisions due to lack of interpretability. Here, we propose a vision-language model-based commander to address the issue of intelligent perception-to-decision reasoning in autonomous confrontations. Our method integrates a vision language model for scene understanding and a lightweight large language model for strategic reasoning, achieving unified perception and decision within a shared semantic space, with strong adaptability and interpretability. Unlike rule-based search and reinforcement learning methods, the combination of the two modules establishes a full-chain process, reflecting the cognitive process of human commanders. Simulation and ablation experiments validate that the proposed approach achieves a win rate of over 80% compared with baseline models.
- Abstract(参考訳): 複数の無人地上車両の対決において、状況認識から自律的に進化する多エージェント戦術的決定は重要な課題である。
従来の手工法に基づく手法は、複雑で過渡的な戦場環境において脆弱になり、現在の強化学習法は主に解釈可能性の欠如による戦略的決定ではなく、行動操作に焦点を当てている。
本稿では,自律的対決における知的知覚-決定的推論の問題に対処するために,視覚言語モデルに基づくコマンドを提案する。
本手法は,シーン理解のための視覚言語モデルと,戦略的推論のための軽量な大規模言語モデルを統合する。
ルールに基づく探索と強化学習とは異なり、2つのモジュールの組み合わせは、人間の指揮官の認知過程を反映して、完全な連鎖プロセスを確立する。
シミュレーションおよびアブレーション実験により,提案手法がベースラインモデルと比較して80%以上の勝利率を達成することを確認した。
関連論文リスト
- ReAL-AD: Towards Human-Like Reasoning in End-to-End Autonomous Driving [27.75047397292818]
エンドツーエンドの自動運転は、単一のフレームワーク内で認識、予測、計画を統合するための有望なアプローチとして現れています。
本稿では,3階層の認知モデルに基づいて自律運転における意思決定を構造化するReAL-ADを提案する。
我々のフレームワークを統合することで、計画の正確さと安全性が30%以上向上し、エンドツーエンドの自動運転がより解釈可能になり、人間のような階層的推論に適合することを示します。
論文 参考訳(メタデータ) (2025-07-16T02:23:24Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - ManipLVM-R1: Reinforcement Learning for Reasoning in Embodied Manipulation with Large Vision-Language Models [26.955482205849282]
LVLM(Large Vision-Language Models)は近年,視覚をシーン認識や言語に活用してロボット操作を進化させた。
本稿では,従来の指導をRLVR(Verifiable Rewards)を用いた強化学習に置き換える新しい強化学習フレームワークであるManipLVM-R1を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:57:07Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Explaining Strategic Decisions in Multi-Agent Reinforcement Learning for Aerial Combat Tactics [40.06500618820166]
マルチエージェント強化学習(MARL)は、複雑なシナリオにおける自律エージェント間の協調を可能にする。
機密性の高い軍事状況におけるMARLの実践的展開は、説明可能性の欠如によって制約される。
本研究は,MARLの空戦シナリオを模擬した説明可能性手法の現況をレビューし,評価する。
論文 参考訳(メタデータ) (2025-05-16T14:36:30Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Planning Like Human: A Dual-process Framework for Dialogue Planning [31.995557540062553]
大規模言語モデル(LLM)における対話計画を強化するための2段階対話計画フレームワークを提案する。
心理学における二重過程理論に触発されて、直感的(高速)と分析的(スロー)の2つの思考様式を具現化した枠組みを提案する。
実験により,DPDPが高品質な対話と操作効率を両立し,既存手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-08T06:52:47Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Context-Aware Language Modeling for Goal-Oriented Dialogue Systems [84.65707332816353]
我々は、部分的に観察されたマルコフ決定過程としてゴール指向対話を定式化する。
目的を意識して言語モデルを微調整する,シンプルで効果的な手法を考案する。
本研究では,AirDialogue を用いた実践的なフライト予約タスクについて評価する。
論文 参考訳(メタデータ) (2022-04-18T17:23:11Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。