論文の概要: Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents
- arxiv url: http://arxiv.org/abs/2512.11584v1
- Date: Fri, 12 Dec 2025 14:14:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.795659
- Title: Atomic Action Slicing: Planner-Aligned Options for Generalist VLA Agents
- Title(参考訳): アトミック・アクション・スライシング:一般VLAエージェントのためのプランナー対応オプション
- Authors: Stefan Tabakov, Asen Popov, Dimitar Dimitrov, S. Ensiye Kiyamousavi, Vladimir Hristov, Boris Kraychev,
- Abstract要約: 現在のビジョン-アクションモデルは、タスクが新しいスキルやオブジェクトの合成を必要とする場合、あまり一般化しない。
AAS(Atomic Action Slicing)は、長距離のデモンストレーションを短い型付けされたアトミックアクションに分解するプランナーによるアプローチである。
AASは、アクションタイプ、時間スパン、信頼性でラベル付けされた2,124個の原子セグメントの検証済みデータセットを生成する。
- 参考スコア(独自算出の注目度): 2.027211672314502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current vision-language-action (VLA) models generalize poorly, particularly when tasks require new compositions of skills or objects. We introduce Atomic Action Slicing (AAS), a planner-aligned approach that decomposes long-horizon demonstrations into short, typed atomic actions that are easier for planners to use and policies to learn. Using LIBERO demonstrations, AAS produces a validated dataset of 2,124 atomic segments labeled with action type, temporal span, and confidence. A stronger segmenter (Gemini 2.5 Pro) closely matches planner-defined plans and remains robust under keyframe jitter, while smaller models perform worse on multi-object tasks. Fine-tuning CLIP-RT+ on our atomic dataset improves task success from 94.2% to 95.3% on LIBERO-Goal and 83.8% to 88.8% on LIBERO-Long. We publicly release the GATE-VLAP dataset on HuggingFace(https://huggingface.co/datasets/gate-institute/GATE-VLAP-datasets)
- Abstract(参考訳): 現在の視覚-言語-アクション(VLA)モデルは、特にタスクが新しいスキルやオブジェクトの合成を必要とする場合、よく一般化されない。
AAS(Atomic Action Slicing)は、長期にわたる実証を、プランナーが簡単に使える短い型付けされたアトミックアクションと学習ポリシーに分解するプランナーによるアプローチである。
LIBEROデモを使用して、AASはアクションタイプ、時間スパン、信頼度でラベル付けされた2,124個の原子セグメントの検証済みデータセットを生成する。
より強力なセグメンタ(Gemini 2.5 Pro)は、プランナーの定義した計画と密接に一致し、キーフレームジッターの下では堅牢であり、より小さなモデルはマルチオブジェクトタスクでより良く動作する。
原子データセット上での微調整CLIP-RT+は、LIBERO-Goalで94.2%から95.3%に改善し、LIBERO-Longで83.8%から88.8%に改善した。
私たちはHuggingFace(https://huggingface.co/datasets/gate-institute/GATE-VLAP-datasets)でGATE-VLAPデータセットを公開しています。
関連論文リスト
- Stay Unique, Stay Efficient: Preserving Model Personality in Multi-Task Merging [62.61159948488935]
Decomposition, Thresholding, and Scaling (DTS)は近似ベースのパーソナライズされたマージフレームワークである。
DTSは、最小のストレージオーバーヘッドでタスク固有の情報を保存する。
タスク特性のセマンティックな類似性に基づいて、DTSをデータフリーでタスク固有の情報を融合する変種で拡張する。
論文 参考訳(メタデータ) (2025-12-01T09:47:17Z) - ManiAgent: An Agentic Framework for General Robotic Manipulation [30.154478145473792]
汎用操作のためのエージェントアーキテクチャであるManiAgentを紹介する。
複数のエージェントは、環境認識、サブタスク分解、アクション生成を行うためのエージェント間通信を含む。
ManiAgentはSimplerEnvベンチマークで86.8%、現実世界のピック・アンド・プレイスタスクで95.8%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-13T17:34:48Z) - HAMLET: Switch your Vision-Language-Action Model into a History-Aware Policy [61.668591984635846]
HAMLETは、行動予測中の歴史的状況に対応するためにビジョン・ランゲージ・アクションモデルを適用するためのフレームワークである。
HAMLETは、最先端のVLAを履歴認識ポリシーに変換することに成功していることを示す。
GR00T N1.5に加えて、HAMLETは歴史に依存した実世界のタスクで平均76.4%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-01T09:15:52Z) - GTA1: GUI Test-time Scaling Agent [97.58177633084915]
グラフィカルユーザインタフェース(GUI)は、ユーザ命令をアクションプロポーザルに順次分解することで、プラットフォーム(例えばLinux)間で自律的にタスクを完了させる。
本稿では,前述の textbfGUI textbfTest-time Scaling textbfAgent,すなわち GTA1 の課題について検討する。
論文 参考訳(メタデータ) (2025-07-08T08:52:18Z) - ProTIP: Progressive Tool Retrieval Improves Planning [14.386337505825228]
プログレッシブツール検索を計画改善(ProTIP)フレームワークに導入する。
ProTIPは、サブタスクラベルの明示的な要求なしに暗黙的にTDを実行すると同時に、サブタスク-ツール原子性も同時に維持する。
ToolBenchデータセットでは、ProTIPがChatGPTタスク分解ベースのアプローチよりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-12-16T05:43:11Z) - Annotator: A Generic Active Learning Baseline for LiDAR Semantic
Segmentation [40.803251337200656]
Annotatorは汎用的で効率的なアクティブラーニングベースラインである。
ボクセル中心のオンライン選択戦略は、各LiDARスキャン内の正当性と卓越したボクセルギルドを効率よく調査し、注釈付けするように調整されている。
アノテーションは多様な設定で優れており、特にアクティブラーニング(AL)、アクティブソースフリードメイン適応(ASFDA)、アクティブドメイン適応(ADA)に焦点を当てている。
論文 参考訳(メタデータ) (2023-10-31T09:04:39Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - MM-SEAL: A Large-scale Video Dataset of Multi-person Multi-grained Spatio-temporally Action Localization [19.721688276051363]
マルチパーソン・複雑なアクティビティ・ローカライゼーションのための新しいベンチマークを最初に提案する。
我々は、制限された原子の作用が多くの複雑な活動に組み合わされることを観察する。
MM-SEALは、アトミックアクションと複雑なアクティビティアノテーションの両方を提供し、172のアクションカテゴリにまたがる111.7kのアトミックアクションと、200のアクティビティカテゴリにまたがる17.7kの複雑なアクティビティを生成する。
論文 参考訳(メタデータ) (2022-04-06T09:27:52Z) - Semi-Supervised Few-Shot Atomic Action Recognition [59.587738451616495]
半教師付き数発のアトミック・アクション認識のための新しいモデルを提案する。
我々のモデルは、教師なしおよびコントラスト付きビデオ埋め込み、ゆるやかなアクションアライメント、マルチヘッド特徴比較、アテンションベースのアグリゲーションを特徴としている。
実験により,本モデルは,それぞれの最先端の分類精度よりも高い精度を全監督条件下で達成できることが確認された。
論文 参考訳(メタデータ) (2020-11-17T03:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。