論文の概要: GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments
- arxiv url: http://arxiv.org/abs/2510.14992v1
- Date: Tue, 07 Oct 2025 21:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-26 16:57:26.432812
- Title: GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments
- Title(参考訳): GAZE:ゼロショット世界モデル環境のためのGovernance-Aware Pre- Annotation
- Authors: Leela Krishna, Mengyang Zhao, Saicharithreddy Pasula, Harshit Rajgarhia, Abhishek Mukherji,
- Abstract要約: 堅牢な世界モデルのトレーニングには、大規模で正確にラベル付けされたマルチモーダルデータセットが必要である。
本稿では,GAZEパイプラインを用いて,生の長文ビデオのリッチなタスク対応監視への変換を自動化する。
- 参考スコア(独自算出の注目度): 1.6398143439811486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training robust world models requires large-scale, precisely labeled multimodal datasets, a process historically bottlenecked by slow and expensive manual annotation. We present a production-tested GAZE pipeline that automates the conversion of raw, long-form video into rich, task-ready supervision for world-model training. Our system (i) normalizes proprietary 360-degree formats into standard views and shards them for parallel processing; (ii) applies a suite of AI models (scene understanding, object tracking, audio transcription, PII/NSFW/minor detection) for dense, multimodal pre-annotation; and (iii) consolidates signals into a structured output specification for rapid human validation. The GAZE workflow demonstrably yields efficiency gains (~19 minutes saved per review hour) and reduces human review volume by >80% through conservative auto-skipping of low-salience segments. By increasing label density and consistency while integrating privacy safeguards and chain-of-custody metadata, our method generates high-fidelity, privacy-aware datasets directly consumable for learning cross-modal dynamics and action-conditioned prediction. We detail our orchestration, model choices, and data dictionary to provide a scalable blueprint for generating high-quality world model training data without sacrificing throughput or governance.
- Abstract(参考訳): 堅牢な世界モデルをトレーニングするには、大規模で正確にラベル付けされたマルチモーダルデータセットが必要です。
本稿では,GAZEパイプラインを用いて,生の長大映像をリッチでタスク対応な世界モデルトレーニングに変換する手法を提案する。
私たちの制度
(i)プロプライエタリな360度フォーマットを標準ビューに正規化し、並列処理のためにシャーディングする。
(ii)AIモデルの集合(シーン理解、オブジェクト追跡、音声書き起こし、PII/NSFW/マイナー検出)を濃密でマルチモーダルな事前アノテーションに適用し、
三 迅速な人的検証のための構造化出力仕様に信号を統合すること。
GAZEワークフローは、明らかに効率向上(レビュー時間あたり19分)をもたらし、低可用性セグメントの保守的な自動スキッピングによって、人間のレビューボリュームを80%削減する。
ラベル密度と一貫性を高めつつ、プライバシー保護と連鎖メタデータを統合することにより、クロスモーダルダイナミクスとアクション条件付き予測を学習するための、高忠実でプライバシーに配慮したデータセットを直接生成する。
スループットやガバナンスを犠牲にすることなく、高品質なワールドモデルのトレーニングデータを生成するためのスケーラブルな青写真を提供するため、オーケストレーション、モデル選択、データ辞書について詳述します。
関連論文リスト
- Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - VAE-based Feature Disentanglement for Data Augmentation and Compression in Generalized GNSS Interference Classification [42.14439854721613]
干渉の正確な分類を可能にする重要な潜伏特徴を抽出するために, アンタングル化のための変分オートエンコーダ (VAE) を提案する。
提案するVAEは512から8,192の範囲のデータ圧縮率を実現し,99.92%の精度を実現している。
論文 参考訳(メタデータ) (2025-04-14T13:38:00Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。
競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-02T13:17:19Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。