論文の概要: Differentiate-and-Inject: Enhancing VLAs via Functional Differentiation Induced by In-Parameter Structural Reasoning
- arxiv url: http://arxiv.org/abs/2602.07541v1
- Date: Sat, 07 Feb 2026 13:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.253836
- Title: Differentiate-and-Inject: Enhancing VLAs via Functional Differentiation Induced by In-Parameter Structural Reasoning
- Title(参考訳): 微分・注入:パラメータ内構造推論による機能的微分によるVLAの増強
- Authors: Jingyi Hou, Leyu Zhou, Chenchen Jing, Jinghan Yang, Xinbo Yu, Wei He,
- Abstract要約: iSTARは視覚言語アクションモデルを強化するためのフレームワークである。
タスクレベルのセマンティック構造を直接モデルパラメータに埋め込む。
これは、コンテキスト内およびエンドツーエンドのVLAベースラインよりも信頼性の高いタスク分解と、より高い成功率を達成する。
- 参考スコア(独自算出の注目度): 9.966857651301515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As robots are expected to perform increasingly diverse tasks, they must understand not only low-level actions but also the higher-level structure that determines how a task should unfold. Existing vision-language-action (VLA) models struggle with this form of task-level reasoning. They either depend on prompt-based in-context decomposition, which is unstable and sensitive to linguistic variations, or end-to-end long-horizon training, which requires large-scale demonstrations and entangles task-level reasoning with low-level control. We present in-parameter structured task reasoning (iSTAR), a framework for enhancing VLA models via functional differentiation induced by in-parameter structural reasoning. Instead of treating VLAs as monolithic policies, iSTAR embeds task-level semantic structure directly into model parameters, enabling differentiated task-level inference without external planners or handcrafted prompt inputs. This injected structure takes the form of implicit dynamic scene-graph knowledge that captures object relations, subtask semantics, and task-level dependencies in parameter space. Across diverse manipulation benchmarks, iSTAR achieves more reliable task decompositions and higher success rates than both in-context and end-to-end VLA baselines, demonstrating the effectiveness of parameter-space structural reasoning for functional differentiation and improved generalization across task variations.
- Abstract(参考訳): ロボットはますます多様なタスクを実行することが期待されているため、低レベルなアクションだけでなく、タスクの展開方法を決定する高レベルな構造も理解する必要がある。
既存の視覚言語アクション(VLA)モデルは、このようなタスクレベルの推論に苦慮している。
それらは、言語的バリエーションに不安定で敏感な、即時ベースのインコンテキスト分解や、大規模な実演と低レベル制御によるタスクレベルの推論の絡み合わせを必要とするエンドツーエンドのロングホライゾントレーニングに依存する。
In-parameter structured task reasoning (iSTAR) は,in-parameter structure reasoning によって誘導される機能的微分を通じてVLAモデルを拡張するためのフレームワークである。
VLAをモノリシックなポリシーとして扱う代わりに、iSTARはタスクレベルのセマンティック構造を直接モデルパラメータに埋め込む。
この注入された構造は、オブジェクトの関係、サブタスクのセマンティクス、およびパラメータ空間におけるタスクレベルの依存性をキャプチャする暗黙の動的なシーングラフの知識の形を取る。
多様な操作ベンチマークを通じて、iSTARは、コンテキスト内とエンドツーエンドの両方のVLAベースラインよりも信頼性の高いタスク分解と高い成功率を実現し、機能的微分のためのパラメータ空間構造的推論の有効性を実証し、タスクのバリエーションをまたいだ一般化を改善した。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。
地理空間推論のための統合ワークフローであるRemoteReasonerを提案する。
RemoteReasonerは、複数の粒度推論タスクにわたる最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-25T13:58:11Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Generating Structured Plan Representation of Procedures with LLMs [5.623006055588189]
本稿では,SOPを構造化表現に変換する新しい手法であるSOPStructuringを紹介する。
SOPStructは、異なるドメインにわたるSOPの標準化された表現を生成し、認知負荷を低減し、ユーザの理解を改善する。
我々の研究は、プロセスモデリングを合理化するために、大規模言語モデルの変換可能性を強調します。
論文 参考訳(メタデータ) (2025-03-28T22:38:24Z) - A representational framework for learning and encoding structurally enriched trajectories in complex agent environments [1.1470070927586018]
人工知能エージェントが最適な決定を行い、それらを異なるドメインやタスクに一般化する能力は、複雑なシナリオで妥協される。
この問題に対処する方法の1つは、世界の効率的な表現を学習することと、エージェントのアクションが状態-行動遷移においてそれらにどのように影響するかに焦点を当てている。
本稿では,エージェントのオントロジーを強化し,従来のトラジェクトリ概念を拡張し,タスク実行のより微妙な視点を提供することを提案する。
論文 参考訳(メタデータ) (2025-03-17T14:04:27Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。