論文の概要: Enhancing Lightweight Vision Language Models through Group Competitive Learning for Socially Compliant Navigation
- arxiv url: http://arxiv.org/abs/2603.11447v1
- Date: Thu, 12 Mar 2026 02:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.706797
- Title: Enhancing Lightweight Vision Language Models through Group Competitive Learning for Socially Compliant Navigation
- Title(参考訳): ソーシャル・コンピテント・ナビゲーションのためのグループ競争学習による軽量視覚言語モデルの強化
- Authors: Xinyu Zhang, Atsushi Konno, Toshihiko Yamasaki, Ling Xiao,
- Abstract要約: 社会ロボットナビゲーションには、シーンセマンティクスと人間の社会規範の洗練された統合が必要である。
軽量ビジョン言語モデル(VLM)は効率的な推論を可能にするが、しばしばより弱い推論と意思決定性能を示す。
本稿では,軽量VLMの能力向上を目的としたGCL(Group Competitive Learning)を提案する。
- 参考スコア(独自算出の注目度): 29.741263131312547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social robot navigation requires a sophisticated integration of scene semantics and human social norms. Scaling up Vision Language Models (VLMs) generally improves reasoning and decision-making capabilities for socially compliant navigation. However, increased model size incurs substantial computational overhead, limiting suitability for real-time robotic deployment. Conversely, lightweight VLMs enable efficient inference but often exhibit weaker reasoning and decision-making performance in socially complex environments. Achieving both strong reasoning ability and efficiency remains an open challenge. To bridge this gap, we propose Group Competitive Learning (GCL), a strategy designed to amplify the capabilities of lightweight VLMs. Our strategy introduces the Group Competitive Objective (GCO) to harmonize global semantics with distributional regularization, alongside Asymmetric Group Optimization (AGO) to explore the upper limits of model performance. Empirical evaluations on social navigation benchmarks demonstrate that GCL significantly elevates VLM performance. Specifically, GCL enables the Qwen2.5-VL-3B learner model and guide Qwen3-VL-4B to achieve an F1 score of 0.968 and 0.914, representing 40\% and 12\% improvement over vanilla supervised fine-tuning (SFT). Notably, under vanilla SFT, the 3B model initially trails the 8B model (F1: 0.692 vs. 0.755). However, through the GCL, the 3B model outperforms (28\%) the 8B baseline model. These results suggest that GCL provides an effective solution for achieving both high accuracy and computational efficiency in real-world deployment.
- Abstract(参考訳): 社会ロボットナビゲーションには、シーンセマンティクスと人間の社会規範の洗練された統合が必要である。
視覚言語モデル(VLM)のスケールアップは一般的に、社会的に準拠するナビゲーションの推論と意思決定能力を改善する。
しかし、モデルのサイズが大きくなると計算オーバーヘッドが大きくなり、リアルタイムのロボット展開に適する可能性が制限される。
逆に、軽量なVLMは効率的な推論を可能にするが、社会的に複雑な環境では、より弱い推論と意思決定性能を示すことが多い。
強い推論能力と効率性の両方を達成することは、依然としてオープンな課題です。
このギャップを埋めるために、軽量VLMの能力を増幅する戦略であるGCL(Group Competitive Learning)を提案する。
我々の戦略では,グローバルセマンティクスと分布正規化を調和させるGCO(Group Competitive Objective)を導入し,非対称グループ最適化(AGO)とともにモデル性能の上限を探索する。
ソーシャルナビゲーションベンチマークの実証評価により、GCLはVLMの性能を大幅に向上することが示された。
具体的には、Qwen2.5-VL-3B学習者モデルとガイドQwen3-VL-4BがF1スコア0.968と0.914を達成でき、バニラ教師付き微調整(SFT)よりも40倍、12倍改善されている。
特に、バニラSFTの下では、当初3Bモデルは8Bモデル(F1: 0.692 vs. 0.755)を踏襲していた。
しかし、GCLを通して、3Bモデルは8Bベースラインモデルよりも(28\%)優れている。
これらの結果から,GCLは実世界の展開において,高精度かつ計算効率の両立に有効なソリューションを提供すると考えられる。
関連論文リスト
- Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization [14.17648636921649]
3つの重要なイノベーションを通じて100%実現可能なフレームワークであるFALCONを紹介します。
FALCONは、最先端のニューラルおよびLLMベースの解決器のソリューション品質をマッチングまたは超過しながら、完全な実現性を達成する。
論文 参考訳(メタデータ) (2026-02-01T08:09:06Z) - Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment [13.582337741042773]
VLA(Vision-Language-Action)モデルは、知覚、言語、制御を統一し、ロボットがマルチモーダル理解を通じて多様なタスクを実行できる強力なフレームワークとして登場した。
現行のVLAモデルは一般に大量のパラメータを含んでおり、大規模なロボットデータの事前トレーニングに大きく依存しているため、トレーニング中に高い計算コストがかかり、リアルタイム推論へのデプロイが制限される。
本稿では,ロボットデータを事前学習することなく高い性能を維持しつつ,計算を削減し,デプロイメント効率を向上させる軽量VLAモデルであるEvo-1を提案する。
論文 参考訳(メタデータ) (2025-11-06T17:07:49Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - CLGRPO: Reasoning Ability Enhancement for Small VLMs [4.551310348498266]
SVLM(Small Vision Language Models)は、一般にパラメータサイズが2B未満のモデルを指す。
本稿では,SVLMの推論能力を高めるために,インクリメンタルトレーニング戦略(Incrmental Training Strategy)と呼ばれるポストトレーニング後の最適化パラダイムを提案する。
実験により,本手法は1B SVLMの推論能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-06-22T14:32:15Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。