Fugu-MT 論文翻訳(概要): VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building

論文の概要: VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building

arxiv url: http://arxiv.org/abs/2303.04068v1
Date: Tue, 7 Mar 2023 17:26:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 14:26:49.736375
Title: VOCALExplore: Pay-as-You-Go Video Data Exploration and Model Building
Title（参考訳）: VOCALExplore:Pay-as-You-Goビデオデータ探索とモデル構築
Authors: Maureen Daum, Enhao Zhang, Dong He, Stephen Mussmann, Brandon Haynes, Ranjay Krishna, and Magdalena Balazinska
Abstract要約: VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。
参考スコア（独自算出の注目度）: 19.68714543252953
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce VOCALExplore, a system designed to support users in building domain-specific models over video datasets. VOCALExplore supports interactive labeling sessions and trains models using user-supplied labels. VOCALExplore maximizes model quality by automatically deciding how to select samples based on observed skew in the collected labels. It also selects the optimal video representations to use when training models by casting feature selection as a rising bandit problem. Finally, VOCALExplore implements optimizations to achieve low latency without sacrificing model performance. We demonstrate that VOCALExplore achieves close to the best possible model quality given candidate acquisition functions and feature extractors, and it does so with low visible latency (~1 second per iteration) and no expensive preprocessing.
Abstract（参考訳）: VOCALExploreは,ビデオデータセット上でのドメイン固有モデル構築を支援するシステムである。 VOCALExploreはインタラクティブなラベリングセッションをサポートし、ユーザ提供ラベルを使用してモデルをトレーニングする。 VOCALExploreは、収集されたラベルの観察スキューに基づいてサンプルを自動的に選択することで、モデル品質を最大化する。また,特徴選択を帯域幅増加問題としてキャストすることで,トレーニングモデルで使用する最適な映像表現を選択する。最後に、VOCALExploreはモデル性能を犠牲にすることなく低レイテンシを実現する最適化を実装している。 VOCALExploreは、候補取得関数と特徴抽出器が与えられたモデル品質に最も近い性能で、可視遅延が低く(イテレーション1秒あたり約1秒)、高価な前処理が不要であることを示す。

関連論文リスト

Video Dataset Condensation with Diffusion Models [7.44997213284633]
ビデオデータセットの蒸留は、大規模な実データセットから必須情報を保持するコンパクトな合成データセットを生成するための有望なソリューションである。本稿では,ビデオ拡散モデルを用いて高品質な合成ビデオを生成することにより,ビデオデータセットの蒸留に焦点を当てる。代表性を高めるために,ビデオの多様な情報サブセットを選択するために設計されたVST-UNet(Video Spatio-Temporal U-Net)を導入する。提案手法の有効性を,4つのベンチマークデータセットによる広範な実験により検証し,現状よりも最大10.61%の性能向上を実証した。
論文参考訳（メタデータ） (2025-05-10T15:12:19Z)
Make Your Training Flexible: Towards Deployment-Efficient Video Models [22.727848052298427]
予算間での入力情報を最大化するための新しいテスト設定であるToken Optimizationを提案する。サンプリンググリッドをフレキシブルにし、トークンの選択を活用することで、最も人気のあるビデオトレーニングフレームワークに容易に採用できる。大規模なビデオ事前トレーニングにFluxを統合し、その結果のFluxViTは、標準的なコストで広範囲のタスクにまたがって、新たな最先端の結果を確立します。
論文参考訳（メタデータ） (2025-03-18T13:15:58Z)
Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:59:53Z)
VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。 VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文参考訳（メタデータ） (2024-12-01T00:33:05Z)
Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。 7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文参考訳（メタデータ） (2024-08-21T09:08:26Z)
Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection [40.85209520973634]
理想的なモデル選択スキームは、候補モデルの大きなプール上で2つの操作を効率的にサポートすべきである。モデル選択に対する従来の解決策は、これらの2つの操作のうちの少なくとも1つに対して高い計算複雑性を必要とする。モデル埋め込みを実証的に実現したStandardized Embedderを提案する。
論文参考訳（メタデータ） (2024-06-11T17:57:49Z)
Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-09T13:39:37Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文参考訳（メタデータ） (2024-03-28T14:44:44Z)
Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。 CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。 15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文参考訳（メタデータ） (2024-02-06T14:53:19Z)
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文参考訳（メタデータ） (2024-01-17T08:30:32Z)
Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation [33.60710287553274]
そこで本研究では,ブラックボックスの分類モデルを,トレーニングデータやアーキテクチャ,重みなどにアクセスせずにコピーすることを提案する。蒸留時にプロキシデータを最大限に活用するために,新たなアクティブなセルフペース学習フレームワークを採用している。 2つのデータセットに対する実験結果から,マルチコールモデル抽出シナリオにおける2つの最先端手法に対するフレームワークの優位性が確認された。
論文参考訳（メタデータ） (2023-09-29T19:09:27Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Flexible Diffusion Modeling of Long Videos [15.220686350342385]
本稿では,任意のビデオフレームの任意のサブセットをテスト時にサンプリングできる生成モデルを提案する。本稿では,25分以上の時間的コヒーレントなビデオとデータセットの事前処理によるビデオモデリングの改善を実演する。さらに、CARLAの自動運転車シミュレータで生成されたビデオに基づいて、新しいビデオモデリングデータセットと意味論的に意味のあるメトリクスをリリースする。
論文参考訳（メタデータ） (2022-05-23T17:51:48Z)
Chest X-Rays Image Classification from beta-Variational Autoencoders Latent Features [0.0]
胸部X線(CXR)画像から情報を抽出するために,ディープラーニング(DL)技術を用いて検討し,解析する。ラベル付きCXRイメージの公開コレクションとしては最大規模のCheXpertデータセット上で,いくつかのβ-Variational Autoencoder(beta-VAE)モデルをトレーニングした。遅延機能は抽出され、他の機械学習モデルをトレーニングするために使用され、β-VAEによって抽出された特徴から元のイメージを分類することができる。
論文参考訳（メタデータ） (2021-09-29T23:28:09Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。