Fugu-MT 論文翻訳(概要): TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation

論文の概要: TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation

arxiv url: http://arxiv.org/abs/2605.05714v1
Date: Thu, 07 May 2026 05:57:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.549167
Title: TriRelVLA: Triadic Relational Structure for Generalizable Embodied Manipulation
Title（参考訳）: TriRelVLA:一般化可能な身体操作のためのトライadic Relational Structure
Authors: Hanyu Zhou, Chuanhao Ma, Gim Hee Lee,
Abstract要約: 視覚言語アクション(VLA)モデルは、トレーニング対象のロボットタスクでうまく機能するが、見えないシーンやオブジェクトに一般化するのに苦労する。一般化可能なエンボディ操作のための三進関係VLAフレームワークであるTriRelVLAを提案する。実験は、微調整されたタスクにおいて強い性能を示し、クロスシーン、クロスオブジェクト、クロスタスクの一般化において明確なゲインを示す。
参考スコア（独自算出の注目度）: 54.81449795163812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language-action (VLA) models perform well on training-seen robotic tasks but struggle to generalize to unseen scenes and objects. A key limitation lies in their implicit visual representations, which entangle object appearance, background, and scene layout. This makes policies sensitive to visual variations. Prior work improves transferability through structured intermediate representations that objectify visual content. However, these representations mainly capture scene semantics instead of action-relevant relations. As a result, action prediction remains tied to appearance statistics. We observe that manipulation actions depend on the object-hand-task relational structure, which governs interactions among task requirements, robot states, and object properties. Based on this observation, we propose TriRelVLA, a triadic relational VLA framework for generalizable embodied manipulation. Our approach consists of three components: 1) We construct explicit object-hand-task triadic representations from multimodal inputs as relational primitives. 2) We build a task-grounded relational graph. Task-guided cross-attention forms nodes, and a relation-aware graph transformer models interactions among them. 3) We perform relation-conditioned action generation. The relational structure is compressed into a bottleneck space and projected into the LLM for action prediction. This triadic relational bottleneck reduces reliance on appearance statistics and enables transfer across scenes, objects, and task compositions. We further introduce a real-world robotic dataset for fine-tuning. Experiments show strong performance on fine-tuned tasks and clear gains in cross-scene, cross-object, and cross-task generalization.
Abstract（参考訳）: 視覚言語アクション(VLA)モデルは、トレーニング対象のロボットタスクでうまく機能するが、見えないシーンやオブジェクトに一般化するのに苦労する。重要な制限は、オブジェクトの外観、背景、シーンレイアウトを絡ませる暗黙の視覚表現にある。これにより、ポリシーは視覚的なバリエーションに敏感になる。以前の作業は、視覚的コンテンツを客観化する構造化された中間表現を通して、転送可能性を改善する。しかし、これらの表現は主にアクション関連関係ではなくシーンセマンティクスをキャプチャする。結果として、行動予測は外見の統計と結びついている。操作動作は,タスク要求,ロボット状態,オブジェクト特性間の相互作用を管理するオブジェクト・タスク・リレーショナル構造に依存している。本稿では,一般化可能なエンボディ操作のための3進関係VLAフレームワークであるTriRelVLAを提案する。私たちのアプローチは3つのコンポーネントで構成されています。 1) リレーショナルプリミティブとしてマルチモーダル入力から明示的なオブジェクト指向三進表現を構築する。 2)タスクグラウンドのリレーショナルグラフを構築する。タスク誘導型クロスアテンションはノードを形成し、関係認識グラフ変換器はそれらの相互作用をモデル化する。 3)関係条件付き行動生成を行う。リレーショナル構造はボトルネック空間に圧縮され、アクション予測のためにLLMに投影される。この3進的リレーショナルボトルネックは、外観統計への依存を減らし、シーン、オブジェクト、タスク構成間の移動を可能にする。ファインチューニングのための実世界のロボットデータセットについても紹介する。実験は、微調整されたタスクにおいて強い性能を示し、クロスシーン、クロスオブジェクト、クロスタスクの一般化において明確なゲインを示す。

関連論文リスト

Seeing Beyond the Scene: Enhancing Vision-Language Models with Interactional Reasoning [27.511627003202538]
伝統的なシーングラフは主に空間的関係に焦点を当て、視覚シーンにおける複雑な相互作用を推論する視覚言語モデル(VLM)の能力を制限する。本稿では,(1) 従来の検出・構築手法は,非集中的かつ文脈的に無関係な関係集合を生成し,(2) 既存の手法では,新しい場面に起因した相互作用を一般化するための永続記憶の形成に失敗する,という2つの課題に対処する。本稿では,3つの相補的なコンポーネントを通してVLMの相互作用推論を強化するフレームワークであるISGRを提案する。
論文参考訳（メタデータ） (2025-05-14T04:04:23Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Situational Scene Graph for Structured Human-centric Situation Understanding [15.91717913059569]
本研究では,人的対象関係とそれに対応する意味特性の両方をエンコードするために,SSGというグラフベースの表現を提案する。セマンティックディテールは、当初単一のアクションを表現するように設計された状況フレームにインスパイアされた、事前に定義された役割と値として表現される。間もなくコードとデータセットをリリースします。
論文参考訳（メタデータ） (2024-10-30T09:11:25Z)
OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion [39.14950571922401]
OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。操作タスクを整理する3つのレベルの抽象化が導入されている。 OakINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
論文参考訳（メタデータ） (2024-03-28T13:47:19Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文参考訳（メタデータ） (2022-12-07T03:36:37Z)
RelViT: Concept-guided Vision Transformer for Visual Relational Reasoning [139.0548263507796]
私たちは視覚推論のベースモデルとして視覚変換器(ViT)を使用します。我々は、ViTの推論能力を改善するために、オブジェクトエンティティとして定義された概念とその関係をよりよく活用する。 HICO と GQA のベンチマークでは,提案モデルである概念誘導型視覚変換器 (略して RelViT ) が従来の手法よりも大幅に優れていたことを示す。
論文参考訳（メタデータ） (2022-04-24T02:46:43Z)
SORNet: Spatial Object-Centric Representations for Sequential Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文参考訳（メタデータ） (2021-09-08T19:36:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。