Fugu-MT 論文翻訳(概要): Beyond VMAF: Towards Application-Specific Metrics for Teleoperation Video

論文の概要: Beyond VMAF: Towards Application-Specific Metrics for Teleoperation Video

arxiv url: http://arxiv.org/abs/2605.13525v1
Date: Wed, 13 May 2026 13:38:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.076606
Title: Beyond VMAF: Towards Application-Specific Metrics for Teleoperation Video
Title（参考訳）: VMAFを超えて - 遠隔操作ビデオのためのアプリケーション特有のメトリクスを目指す
Authors: Ines Trautmannsheimer, Richard Grauberger, Frank Diermeyer,
Abstract要約: 映像伝送はオペレーターの主要な状況認識源となる。再訓練されたモデルでは、人間の評価と整合性が改善された。動画は、運転作業に不可欠な領域で顕著な劣化があったにもかかわらず、高い客観的スコアを得た不適切なケースが出現した。
参考スコア（独自算出の注目度）: 0.45880283710344066
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automated driving has made remarkable progress, yet situations still arise where human intervention is necessary. Teleoperation provides a scalable solution to address such cases, enabling remote operators to support vehicles without being physically present. In this context, video transmission forms the operator's primary source of situational awareness, making video quality a decisive factor for both safety and task performance. In an online study, participants rated compressed video sequences from the Zenseact Dataset and provided subjective quality ratings. These ratings were then used to retrain the Video Multi-Method Assessment Fusion (VMAF) model, yielding an adapted variant tailored to teleoperation. The retrained model demonstrated improved alignment with human ratings compared to the original 4K VMAF. In particular, RMSE decreased from 10.36 to 8.83, and MAD from 8.71 to 6.38, corresponding to improvements of 15% and 27%, respectively. These results highlight that incorporating domain-specific data can enhance the predictive power of established quality metrics in safety-critical applications. At the same time, Outlier cases emerged in which videos received high objective scores despite noticeable degradations in regions critical for the driving task.
Abstract（参考訳）: 自動走行は目覚ましい進歩を遂げたが、人間の介入が必要な状況は依然として発生している。遠隔操作はこのようなケースに対処するためのスケーラブルなソリューションを提供する。この文脈では、映像伝送はオペレーターの主要な状況認識源となり、映像品質は安全性とタスクパフォーマンスの両方において決定的な要素となる。オンライン調査では、参加者はZenseact Datasetから圧縮されたビデオシーケンスを評価し、主観的な品質評価を提供した。これらの評価はその後、ビデオ・マルチ・メソッド・アセスメント・フュージョン(VMAF)モデルの再訓練に使用され、遠隔操作用に適合した派生型が得られた。再訓練したモデルでは、元の4K VMAFと比較して、ヒトのレーティングと整合性が改善された。特にRMSEは10.36から8.83に、MADは8.71から6.38に減少し、それぞれ15%と27%の改善があった。これらの結果は、安全クリティカルなアプリケーションにおいて、ドメイン固有のデータを組み込むことで、確立された品質指標の予測能力を高めることを強調している。同時に、運転作業に不可欠な領域の顕著な劣化にもかかわらず、ビデオに高い客観的スコアが付与されたケースも出現した。

関連論文リスト

Are AI-Generated Driving Videos Ready for Autonomous Driving? A Diagnostic Evaluation Framework [5.557926430369991]
最近のテキスト・ビデオモデルでは、自然言語のプロンプトから高解像度の駆動シーンを生成することができる。これらのAI生成駆動ビデオ(AIGVs)は、自動運転(AD)のためのリアルまたはシミュレーターデータに代わる低コストでスケーラブルな代替手段を提供するしかし、重要な疑問が残る。このようなビデオはADモデルのトレーニングと評価を確実にサポートできるのだろうか? 本稿では,この問題を体系的に研究する診断枠組みを提案する。
論文参考訳（メタデータ） (2025-12-06T10:06:27Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文参考訳（メタデータ） (2025-04-08T06:00:28Z)
AIGV-Assessor: Benchmarking and Evaluating the Perceptual Quality of Text-to-Video Generation with LMM [54.44479359918971]
AIGVQA-DBは,1,048プロンプトを用いた15の高度なテキスト・ビデオ・モデルによって生成された36,576個のAIGVからなる大規模データセットである。 AIGV-Assessorは、複雑な品質特性を活用して、正確なビデオ品質スコアとペアビデオ嗜好をキャプチャする新しいVQAモデルである。
論文参考訳（メタデータ） (2024-11-26T08:43:15Z)
GAIA: Rethinking Action Quality Assessment for AI-Generated Videos [56.047773400426486]
アクション品質アセスメント(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されている。我々は,新たな因果推論の観点から大規模主観評価を行うことにより,GAIAを構築した。その結果、従来のAQA手法、最近のT2Vベンチマークにおけるアクション関連指標、メインストリームビデオ品質手法は、それぞれ0.454、0.191、0.519のSRCCで性能が良くないことがわかった。
論文参考訳（メタデータ） (2024-06-10T08:18:07Z)
Enhancing Surveillance Camera FOV Quality via Semantic Line Detection and Classification with Deep Hough Transform [0.6906005491572401]
本稿では,意味線の検出と分類を,深いHough変換とともに活用し,意味線を識別する革新的な手法を提案する。提案手法は, 一般のEgoCartデータセット上での有効F1スコア0.729と, ラインプレースメント指標の顕著な中央値スコアとを併用する。
論文参考訳（メタデータ） (2024-01-17T15:30:17Z)
AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering [6.088350050879401]
我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。 1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
論文参考訳（メタデータ） (2023-11-25T02:46:12Z)
Vehicle-Human Interactive Behaviors in Emergency: Data Extraction from Traffic Accident Videos [0.0]
現在、緊急時の車両と人間の対話行動を研究するには、ほとんど利用できない実際の緊急状況において、大量のデータセットが必要である。本稿では,実際の事故映像から対話行動データ(車と人間の軌跡)を抽出する,しかし便利な方法を提案する。リアルタイムの事故ビデオからデータを抽出する主な課題は、記録カメラが校正されておらず、監視の角度が不明であるという事実にある。
論文参考訳（メタデータ） (2020-03-02T22:17:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。