論文の概要: RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation
- arxiv url: http://arxiv.org/abs/2605.25495v1
- Date: Mon, 25 May 2026 06:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.359314
- Title: RepSAM: Bridging Foundation Models to Robotic Vision via Representation-Guided Adaptation
- Title(参考訳): RepSAM: Representation-Guided Adaptationによるロボットビジョンへの基礎モデルのブリッジ
- Authors: Wenhui Chu,
- Abstract要約: RepSAMは、ロボットビジョンに基礎モデルを適用するための表現誘導パラメータ効率の微調整フレームワークである。
RepSAMは完全な微調整性能(89.0%対90.9% mIoU)の97.9%を達成し、トレーニング可能なパラメータを158倍(632Mから4.0M)削減した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic perception in unstructured environments remains challenging despite the zero-shot capabilities of foundation models such as SAM. This work attributes performance degradation to non-uniform representation shifts across transformer layers: shallow layers exhibit substantial domain gaps (CKA < 0.5), whereas deep layers transfer effectively (CKA > 0.7). Based on this observation, we propose RepSAM, a representation-guided parameter-efficient fine-tuning (PEFT) framework for adapting foundation models to robotic vision. RepSAM employs a theoretically grounded CKA-guided rank allocation strategy combined with a multi-modal fusion module for robust handling of challenging robotic scenarios, including transparent objects and cluttered scenes. Experimental evaluation across six benchmarks and robotic manipulation tasks demonstrates that RepSAM achieves 97.9% of full fine-tuning performance (89.0% vs. 90.9% mIoU) while reducing trainable parameters by 158x (from 632M to 4.0M). RepSAM outperforms DoRA by 7.9% mIoU with just 4 hours of training on a single A100 GPU (a 96x reduction from full fine-tuning, which takes 384 GPU-hours). These improvements are statistically significant (p < 0.01) and translate to a 12.0% absolute improvement in robotic manipulation success rates over the LoRA (RGB) baseline.
- Abstract(参考訳): SAMのような基礎モデルのゼロショット能力にもかかわらず、非構造環境におけるロボットの知覚は依然として困難である。
浅い層は大きな領域ギャップ(CKA < 0.5)を示し、深い層は効率的に移動する(CKA > 0.7)。
本研究では,ロボットビジョンに基礎モデルを適用するための表現誘導パラメータ効率微調整(PEFT)フレームワークであるRepSAMを提案する。
RepSAMは理論上はCKA誘導型ランクアロケーション戦略とマルチモーダル融合モジュールを組み合わせて、透明な物体や散らかったシーンを含む挑戦的なロボットシナリオを堅牢に扱う。
6つのベンチマークとロボット操作タスクによる実験的評価は、RepSAMが完全微調整性能(89.0%対90.9% mIoU)の97.9%を達成し、トレーニング可能なパラメータを158倍(632Mから4.0M)削減したことを示している。
RepSAMは、1つのA100 GPUでのトレーニングでわずか4時間(フル微調整から96倍)でDoRAを7.9%のmIoUで上回っている。
これらの改善は統計的に有意であり(p < 0.01)、ロラ(RGB)ベースラインよりもロボット操作の成功率を12.0%向上させた。
関連論文リスト
- CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation [7.355373109826612]
本稿ではMAPDL自動化のための軽量エージェントハーネスであるCAX-Agentのアーキテクチャについて述べる。
我々は50の標準構造ベンチマークで3つのリカバリ戦略(no_recovery, rule_only, model_only)を評価した。
Model_onlyは、最大完了率(0.9267)、タスクスコア(3.59/4)、総得点(9.16/10)、ゼロ介入率(0.84)、0.7733, 3.17/4, 7.03/10, 0.00)、no_recovery(0.6933, 2.74/4, 5.60/10, 0.00)を大きな効果サイズで達成する。
論文 参考訳(メタデータ) (2026-05-12T14:46:34Z) - MTA-RL: Robust Urban Driving via Multi-modal Transformer-based 3D Affordances and Reinforcement Learning [4.076622576916001]
マルチモーダルトランスフォーマーを用いた3次元モデリングと強化学習(RL)
本稿では,マルチモーダルトランスフォーマーを用いた3D Affordances and Reinforcement Learning(RL)による知覚と制御をブリッジする最初のフレームワークであるMTA-RLを提案する。
論文 参考訳(メタデータ) (2026-05-11T08:28:55Z) - From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation [32.41847293364159]
PRIMO R1はビデオMLLMをアクティブな「批判」に変換する7Bフレームワーク
我々は、結果に基づく強化学習を活用して、進捗推定のための明示的な連鎖生成をインセンティブ化する。
67.0%の精度でRoboFailベンチマークの最先端のパフォーマンスを確立し、OpenAI o1のようなクローズドソースモデルを6.2%上回った。
論文 参考訳(メタデータ) (2026-03-16T17:53:28Z) - Contrastive Representation Regularization for Vision-Language-Action Models [64.10170453130324]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルの表現正規化であるロボット状態認識コントラスト損失(RS-CL)を紹介する。
特に、RS-CLは、状態間の相対的な距離をソフト・インスペクションとして使用することにより、ロボットの受容状態とより密に表現する。
実験の結果,RS-CLは最先端VLAモデルの操作性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-10-02T06:41:22Z) - Diversity-Guided MLP Reduction for Efficient Large Vision Transformers [62.33249256133204]
トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。
そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
論文 参考訳(メタデータ) (2025-06-10T08:59:27Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [69.6913064185993]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。