論文の概要: Multi-modal video data-pipelines for machine learning with minimal human supervision
- arxiv url: http://arxiv.org/abs/2510.14862v1
- Date: Thu, 16 Oct 2025 16:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.952072
- Title: Multi-modal video data-pipelines for machine learning with minimal human supervision
- Title(参考訳): 人間の監督を最小限に抑えた機械学習のためのマルチモーダルビデオデータパイプライン
- Authors: Mihai-Cristian Pîrvu, Marius Leordeanu,
- Abstract要約: この作業では、人間の監督をほとんど使わずにできる限り多くの視覚的モダリティを組み合わせることを試みています。
我々は,マルチモーダルデータの活用に特化して設計されたPHG-MAEを利用する。
このモデルをデプロイし、ハンドヘルドデバイスやコモディティハードウェア上のウェブカメラからリアルタイムセマンティックセマンティックセグメンテーションのユースケースを分析する。
- 参考スコア(独自算出の注目度): 5.964742520869198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real-world is inherently multi-modal at its core. Our tools observe and take snapshots of it, in digital form, such as videos or sounds, however much of it is lost. Similarly for actions and information passing between humans, languages are used as a written form of communication. Traditionally, Machine Learning models have been unimodal (i.e. rgb -> semantic or text -> sentiment_class). Recent trends go towards bi-modality, where images and text are learned together, however, in order to truly understand the world, we need to integrate all these independent modalities. In this work we try to combine as many visual modalities as we can using little to no human supervision. In order to do this, we use pre-trained experts and procedural combinations between them on top of raw videos using a fully autonomous data-pipeline, which we also open-source. We then make use of PHG-MAE, a model specifically designed to leverage multi-modal data. We show that this model which was efficiently distilled into a low-parameter (<1M) can have competitive results compared to models of ~300M parameters. We deploy this model and analyze the use-case of real-time semantic segmentation from handheld devices or webcams on commodity hardware. Finally, we deploy other off-the-shelf models using the same framework, such as DPT for near real-time depth estimation.
- Abstract(参考訳): 現実世界は本質的にはマルチモーダルである。
私たちのツールは、ビデオや音声などのデジタル形式でそのスナップショットを観察し、撮影しますが、その多くが失われています。
同様に、人間間の行動や情報伝達において、言語は記述されたコミュニケーションの形式として使用される。
伝統的に、機械学習モデルは(rgb -> セマンティクスまたはテキスト -> センチメント_class)非モーダル(unimodal)である。
最近の傾向は、画像とテキストが共に学習される双方向性に向かっているが、世界を真に理解するためには、これらの独立したモダリティをすべて統合する必要がある。
この作業では、人間の監督をほとんど使わずにできる限り多くの視覚的モダリティを組み合わせることを試みています。
これを実現するために、トレーニング済みの専門家とプロシージャの組み合わせを、完全に自律的なデータパイプを使用して生のビデオ上に使用しています。
次に、マルチモーダルデータの活用に特化したモデルであるPHG-MAEを利用する。
低パラメータ(<1M) に効率よく蒸留したこのモデルは, 約300M のモデルと比較して, 競争力のある結果が得られることを示した。
このモデルをデプロイし、ハンドヘルドデバイスやコモディティハードウェア上のウェブカメラからリアルタイムセマンティックセマンティックセグメンテーションのユースケースを分析する。
最後に、DPTのような同じフレームワークを用いて、他のオフザシェルフモデルをデプロイし、ほぼリアルタイムな深度推定を行う。
関連論文リスト
- Probabilistic Hyper-Graphs using Multiple Randomly Masked Autoencoders for Semi-supervised Multi-modal Multi-task Learning [0.0]
マスク付きオートエンコーダ(PHG-MAE)を用いた確率的ハイパーグラフの導入
PHG-MAEはニューラルグラフに関する古典的な研究を統合する新しいモデルである。
アンサンブルの上に知識蒸留を施すことができ、性能が損なわれないことを示す。
論文 参考訳(メタデータ) (2025-10-11T07:05:34Z) - Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。
このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。
そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文 参考訳(メタデータ) (2025-03-28T07:32:51Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。