論文の概要: ATLAS: An Annotation Tool for Long-horizon Robotic Action Segmentation
- arxiv url: http://arxiv.org/abs/2604.26637v1
- Date: Wed, 29 Apr 2026 13:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.40708
- Title: ATLAS: An Annotation Tool for Long-horizon Robotic Action Segmentation
- Title(参考訳): ATLAS:長距離ロボットアクションセグメンテーションのためのアノテーションツール
- Authors: Sergej Stanovcic, Daniel Sliwowski, Dongheui Lee,
- Abstract要約: ATLASは、長距離ロボットアクションセグメンテーションに適したアノテーションツールである。
マルチモーダルロボットデータの時間同期可視化を提供する。
モジュール形式のデータセット抽象化レイヤを通じて、新しいフォーマットに簡単に拡張できる。
- 参考スコア(独自算出の注目度): 6.651579094395483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating long-horizon robotic demonstrations with precise temporal action boundaries is crucial for training and evaluating action segmentation and manipulation policy learning methods. Existing annotation tools, however, are often limited: they are designed primarily for vision-only data, do not natively support synchronized visualization of robot-specific time-series signals (e.g., gripper state or force/torque), or require substantial effort to adapt to different dataset formats. In this paper, we introduce ATLAS, an annotation tool tailored for long-horizon robotic action segmentation. ATLAS provides time-synchronized visualization of multi-modal robotic data, including multi-view video and proprioceptive signals, and supports annotation of action boundaries, action labels, and task outcomes. The tool natively handles widely used robotics dataset formats such as ROS bags and the Reinforcement Learning Dataset (RLDS) format, and provides direct support for specific datasets such as REASSEMBLE. ATLAS can be easily extended to new formats via a modular dataset abstraction layer. Its keyboard-centric interface minimizes annotation effort and improves efficiency. In experiments on a contact-rich assembly task, ATLAS reduced the average per-action annotation time by at least 6% compared to ELAN, while the inclusion of time-series data improved temporal alignment with expert annotations by more than 2.8% and decreased boundary error fivefold compared to vision-only annotation tools.
- Abstract(参考訳): アクションセグメンテーションと操作ポリシー学習方法の訓練と評価には,時間的時間的境界を正確に設定した長期ロボットデモのアノテーションが不可欠である。
しかし、既存のアノテーションツールは、主に視覚のみのデータ用に設計されており、ロボット固有の時系列信号(例えば、グリップ状態やフォース/トルク)の同期可視化をサポートしていない。
本稿では,長距離ロボット動作セグメンテーションに適したアノテーションツールATLASを紹介する。
ATLASは、マルチビュービデオやプロプリセプティブ信号を含むマルチモーダルロボットデータのタイム同期可視化を提供し、アクションバウンダリ、アクションラベル、タスク結果のアノテーションをサポートする。
このツールは、ROSバッグや強化学習データセット(Reinforcement Learning Dataset, RLDS)フォーマットなど、広く使用されているロボットデータセットフォーマットをネイティブに処理し、REASSEMBLEのような特定のデータセットを直接サポートする。
ATLASは、モジュール化されたデータセット抽象化層を通じて、新しいフォーマットに容易に拡張できる。
キーボード中心のインターフェースはアノテーションの労力を最小限に抑え、効率を向上させる。
コンタクトリッチなアセンブリータスクの実験では、ATLASはELANと比較して平均アクション毎のアノテーション時間を6%削減し、時系列データを含めると専門家アノテーションとの時間的アライメントは2.8%以上改善し、境界誤差は視覚のみのアノテーションツールに比べて5倍に減少した。
関連論文リスト
- OmniVTG: A Large-Scale Dataset and Training Paradigm for Open-World Video Temporal Grounding [55.29748680163419]
Video Temporal Grounding (VTG)は、データセットの規模やセマンティックな多様性が制限されているため、オープンワールド設定で苦労している。
オープンワールドVTGのための新しい大規模データセットであるOmniVTGを紹介する。
MLLMをトレーニングして、まず予測を行い、その理解能力を使用して、独自の予測を反映し、洗練します。
論文 参考訳(メタデータ) (2026-04-28T06:34:19Z) - AutoTraces: Autoregressive Trajectory Forecasting via Multimodal Large Language Models [5.085937845977223]
AutoTracesは、ヒューム言語環境におけるロボット軌道予測のための自動回帰視覚軌道モデルである。
鍵となる革新は軌跡トークン化スキームであり、これはポイントトークンを持つウェイポイントをカテゴリマーカーとして表現し、ウェイポイント数値を対応するポイント埋め込みとして符号化する。
論文 参考訳(メタデータ) (2026-03-09T05:53:06Z) - SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。
EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。
我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-17T09:51:51Z) - SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文 参考訳(メタデータ) (2025-06-09T15:15:15Z) - FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-29T07:18:28Z) - ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot
End-to-End Temporal Action Detection [10.012716326383567]
時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。
ZEETADには2つのモジュールがあり、双対局在化とゼロショット提案分類という2つのモジュールがある。
軽量なアダプタで冷凍したCLIPエンコーダを最小限に更新することで、未確認クラスの識別能力を向上する。
論文 参考訳(メタデータ) (2023-11-01T00:17:37Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。