論文の概要: Think Proprioceptively: Embodied Visual Reasoning for VLA Manipulation
- arxiv url: http://arxiv.org/abs/2602.06575v1
- Date: Fri, 06 Feb 2026 10:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.349899
- Title: Think Proprioceptively: Embodied Visual Reasoning for VLA Manipulation
- Title(参考訳): 自覚的思考:VLAマニピュレーションのための身体的視覚推論
- Authors: Fangyuan Wang, Peng Zhou, Jiaming Qi, Shipeng Lyu, David Navarro-Alarcon, Guodong Guo,
- Abstract要約: ThinkProprioは、プロプリセプションをVLM埋め込み空間内の一連のテキストトークンに変換する。
テキストトークン化は、学習したプロジェクタよりも効果的であり、約15%の視覚トークンを保持することは、完全なトークンセットを使用するパフォーマンスにマッチする。
- 参考スコア(独自算出の注目度): 30.317391278974302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models typically inject proprioception only as a late conditioning signal, which prevents robot state from shaping instruction understanding and from influencing which visual tokens are attended throughout the policy. We introduce ThinkProprio, which converts proprioception into a sequence of text tokens in the VLM embedding space and fuses them with the task instruction at the input. This early fusion lets embodied state participate in subsequent visual reasoning and token selection, biasing computation toward action-critical evidence while suppressing redundant visual tokens. In a systematic ablation over proprioception encoding, state entry point, and action-head conditioning, we find that text tokenization is more effective than learned projectors, and that retaining roughly 15% of visual tokens can match the performance of using the full token set. Across CALVIN, LIBERO, and real-world manipulation, ThinkProprio matches or improves over strong baselines while reducing end-to-end inference latency over 50%.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは一般的に、遅延条件付け信号としてのみプロプレッセプションを注入し、ロボットの状態が指示理解を形作ることや、どの視覚トークンがポリシー全体に参加するかに影響を与えることを防ぐ。
本稿では,プロプレプションをVLM埋め込み空間内の一連のテキストトークンに変換し,入力時のタスク命令と融合するThinkProprioを紹介する。
この初期融合により、埋め込み状態はその後の視覚的推論とトークン選択に参加し、冗長な視覚的トークンを抑えながら、行動クリティカルな証拠に対する計算をバイアスする。
プロトリオセプションエンコーディング,状態エントリポイント,アクションヘッドコンディショニングに対する体系的アブレーションでは,テキストのトークン化は学習したプロジェクタよりも効果的であり,約15%の視覚トークンを保持すれば,全トークンセットの使用性能にマッチすることがわかった。
CALVIN、LIBERO、および現実世界の操作を通じて、ThinkProprioは強力なベースラインにマッチまたは改善し、エンドツーエンドの推論遅延を50%以上削減する。
関連論文リスト
- Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - PoRe: Position-Reweighted Visual Token Pruning for Vision Language Models [12.189644988996022]
本稿では,視覚的トークンプルーニングにおける遅延バイアスを軽減するための,極めて単純かつ効果的なアプローチを提案する。
画像内の空間的位置に応じて視覚的トークンの注意点を調節する簡単なリウェイト機構を提案する。
提案手法は,既存のビジュアルトークンプルーニングフレームワークにシームレスに組み込むことができるプラグイン・アンド・プレイソリューションである。
論文 参考訳(メタデータ) (2025-08-25T08:56:32Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Introducing Visual Perception Token into Multimodal Large Language Model [53.82301522384719]
MLLM(Multimodal Large Language Model)はその視覚エンコーダの知覚過程に依存している。
MLLMには、独自の視覚知覚プロセスを制御する自律的な能力がない。
本稿では,視覚知覚のプロセスを制御する機構をMLLMに組み込むことを目的として,視覚知覚トークンの概念を提案する。
論文 参考訳(メタデータ) (2025-02-24T18:56:12Z) - Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers [32.167072183575925]
本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。
ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
論文 参考訳(メタデータ) (2024-10-17T22:45:13Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
大きな視覚言語モデル(LVLM)は、視覚的理解と記述において強力な能力を示すが、幻覚に悩まされることが多い。
我々は,目隠しのメカニズムを変更せずに,目隠しトークンの影響を再検討するテストタイムアプローチである注意覚(AvisC)を提案する。
POPE、MME、AMBERなどの標準ベンチマークの実験は、AvisCがLVLMの幻覚を効果的に減少させることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。