Fugu-MT 論文翻訳(概要): LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

論文の概要: LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

arxiv url: http://arxiv.org/abs/2604.11689v1
Date: Mon, 13 Apr 2026 16:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:16.686915
Title: LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
Title（参考訳）: Lary: 汎用ビジョン・ツー・アクションアライメントのための潜在アクション表現型ベンチマーク
Authors: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai,
Abstract要約: 一般的な視覚基盤モデルは、特殊エンボディ化潜在行動モデルより一貫して優れている。ラテントベースの視覚空間は、ピクセルベースの空間よりも物理アクション空間に整合している。
参考スコア（独自算出の注目度）: 19.95295518800639
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.
Abstract（参考訳）: 明示的なアクションデータが不足しているため、Vision-Language-Action(VLA)モデルは制限されるが、人間のアクションビデオはスケーラブルでラベル付けされていないデータソースを提供する。大規模な人間のビデオデータセットを利用する上で重要な課題は、視覚信号をオントロジーに依存しない表現に変換することである。しかし、視覚的観察から頑健な制御を導く潜在行動表現の能力は、まだ厳密に評価されていない。本稿では,ハイレベルなセマンティックアクション(何をすべきか)と低レベルなロボット制御(どうすべきか)の両方について,潜在アクション表現を評価するための統一的なフレームワークであるLary Action Representation Yielding (Lary) Benchmarkを紹介する。総合的にキュレートされたデータセットは、151のアクションカテゴリにまたがる100万のビデオ(1000時間)と、620Kのイメージペアと595Kのモーショントラジェクトリで構成されている。私たちの実験は2つの重要な洞察を示します。一総合的な視覚基盤モデルであって、いかなる行動監督も行わずに訓練されたもので、特殊実施の潜伏行動モデルより一貫して優れていること。 (ii)ラテントベースの視覚空間は、ピクセルベースの空間よりも物理的行動空間に根本的に整合している。これらの結果は、一般的な視覚表現は、物理的制御に対する行動関連知識を本質的にエンコードしており、セマンティックレベルの抽象化は、ピクセルレベルの再構成よりも視覚から行動への根本的に効果的な経路であることを示している。

関連論文リスト

InstrAct: Towards Action-Centric Understanding in Instructional Videos [12.356484522873577]
InstrActionは、インストラクショナルビデオのアクション中心表現のための事前トレーニングフレームワークである。まず、ノイズの多いキャプションをフィルタリングし、アクション中心のハードネガティブを生成する、データ駆動型戦略を導入する。視覚的特徴レベルでは、Action Perceiverは、冗長なビデオエンコーディングからモーション関連トークンを抽出する。
論文参考訳（メタデータ） (2026-04-09T20:51:13Z)
LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。 R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文参考訳（メタデータ） (2026-03-31T02:21:59Z)
Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文参考訳（メタデータ） (2026-02-23T11:00:08Z)
ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation [27.54751123419347]
人間のビデオからロボットポリシーを学習するための教師なし事前学習フレームワークであるConLAを提案する。人間のビデオのみに事前学習を行うことで、実際のロボット軌道事前学習で得られた性能を初めて上回ります。
論文参考訳（メタデータ） (2026-01-31T06:40:57Z)
VisualActBench: Can VLMs See and Act like a Human? [47.16421650715271]
VLM(Vision-Language Models)は、視覚環境の知覚と記述において顕著な進歩を遂げた。しかし、明示的なテキストのプロンプトなしで、視覚的な入力のみに基づいて、積極的に推論し、行動する能力は、いまだに未解明のままである。新しいタスクであるVisual Action Reasoningを導入し、1,074の動画と3,733の人手によるアクションからなる大規模ベンチマークであるVisualActBenchを提案する。
論文参考訳（メタデータ） (2025-12-10T18:36:18Z)
Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception [8.542874528320004]
既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
論文参考訳（メタデータ） (2025-11-19T09:42:08Z)
SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。 SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文参考訳（メタデータ） (2025-10-14T22:10:49Z)
Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文参考訳（メタデータ） (2025-08-18T17:12:28Z)
From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
Object Concepts Emerge from Motion [24.73461163778215]
教師なしの方法でオブジェクト中心の視覚表現を学習するための生物学的にインスパイアされたフレームワークを提案する。我々の重要な洞察は、運動境界がオブジェクトレベルのグルーピングの強いシグナルとなることである。我々のフレームワークは完全にラベルフリーで、カメラキャリブレーションに頼らず、大規模な非構造化ビデオデータにスケーラブルである。
論文参考訳（メタデータ） (2025-05-27T18:09:02Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。