Fugu-MT 論文翻訳(概要): IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

論文の概要: IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance

arxiv url: http://arxiv.org/abs/2601.16207v1
Date: Thu, 22 Jan 2026 18:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.910695
Title: IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
Title（参考訳）: IVRA:学習自由ヒント指導によるロボット行動政策の視覚的関係の改善
Authors: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo,
Abstract要約: 多くのVision-Language-Action (VLA)モデルは、画像パッチを1Dトークンシーケンスに平坦化し、正確な操作に必要な2D空間キューを弱める。我々は,モデルに組み込まれた視覚で既に利用可能な親和性ヒントを活用することにより,空間的理解を改善する軽量なトレーニング不要な手法を提案する。
参考スコア（独自算出の注目度）: 35.90972175891154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA
Abstract（参考訳）: 多くのVision-Language-Action (VLA)モデルは、画像パッチを1Dトークンシーケンスにフラット化し、正確な操作に必要な2D空間キューを弱める。我々は,モデルに組み込まれた視覚エンコーダで既に利用可能な親和性ヒントを利用して,外部エンコーダやリトレーニングを必要とせず,空間的理解を改善する軽量なトレーニングフリー手法であるIVRAを紹介する。 IVRAはこれらの親和性信号を、インスタンスレベルの特徴が存在する言語モデル層に選択的に注入する。この推論時間の介入は視覚的な相互作用を実現し、全てのモデルパラメータを固定しながら幾何学的構造をよりよく保存する。 VLAアーキテクチャ(LLaRA, OpenVLA, FLOWER)に2Dおよび3D操作(VIMA, LIBERO)および様々な実ロボットタスクにまたがるシミュレーションベンチマークを適用し,IVRAの汎用性を実証する。 2D VIMAでは、IVRAは低データ体制下でのLLaRAよりも平均的な成功率を+4.2%向上させる。 3D LIBEROでは、ベースラインの精度がほぼ飽和している(96.3%から97.1%)場合など、OpenVLAとFLOWERのベースラインよりも一貫した利得が得られる。すべてのコードとモデルは公開されます。 jongwoopark7978.github.io/IVRA

関連論文リスト

ST-VLA: Enabling 4D-Aware Spatiotemporal Understanding for General Robot Manipulation [33.92613503473177]
本稿では,3D-4Dの統一表現を用いた3D-4D表現を提案する。 STHumanは,14,300kエピソード,注釈付き2D,3D,4Dコンテキストを備えた大規模ヒューマン操作データセットである。 RLBenchと実世界の操作タスクの実験は、手法が最先端のベースラインを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2026-03-14T06:36:48Z)
Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation [58.21084913574353]
我々は,世界力学を暗黙的に理解したVLAモデルを実現するシンプルなアプローチであるPri4Rを紹介する。 Pri4Rは3Dトラックを予測する軽量なポイントトラックヘッドでVLAを強化している。 3Dポイントトラック予測は,アクションワールドダイナミクスを学習するための効果的な監視対象であることを示す。
論文参考訳（メタデータ） (2026-03-02T07:23:53Z)
DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning [94.62097655403683]
本稿では,ビジョン・ランゲージ・アクション統合フレームワークとして機能する空間認識型4次元MLLMであるDrivePIを提案する。提案手法は,空間的理解,3次元知覚,予測(占有フロー),計画(行動出力)を並列に行う。 MLLMのバックボーンとして0.5BのQwen2.5モデルしか持たず、単一の統一モデルとしてのDrivePIは既存のVLAモデルと特殊VAモデルの両方を上回るか、あるいは超える。
論文参考訳（メタデータ） (2025-12-14T18:45:54Z)
PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。 PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文参考訳（メタデータ） (2025-03-10T16:32:41Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文参考訳（メタデータ） (2021-01-07T18:30:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。