論文の概要: RGC-VQA: An Exploration Database for Robotic-Generated Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2506.23852v1
- Date: Mon, 30 Jun 2025 13:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.08337
- Title: RGC-VQA: An Exploration Database for Robotic-Generated Video Quality Assessment
- Title(参考訳): RGC-VQA:ロボット生成ビデオ品質評価のための探索データベース
- Authors: Jianing Jin, Jiangyong Ying, Huiyu Duan, Liu Yang, Sijing Wu, Yunhao Li, Yushuo Zheng, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 本稿では,ロボットの自我中心的な視点から生成された映像を表現するために,ロボット生成コンテンツ(RGC)の概念を提案する。
RGCビデオは、プロが生成したコンテンツとは異なる独特の歪みと視覚的要求を示す。
RGCDには3つのロボットカテゴリーから作成され、多様なプラットフォームからソースされた合計2100本のビデオが含まれている。
- 参考スコア(独自算出の注目度): 49.08282292724247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As camera-equipped robotic platforms become increasingly integrated into daily life, robotic-generated videos have begun to appear on streaming media platforms, enabling us to envision a future where humans and robots coexist. We innovatively propose the concept of Robotic-Generated Content (RGC) to term these videos generated from egocentric perspective of robots. The perceptual quality of RGC videos is critical in human-robot interaction scenarios, and RGC videos exhibit unique distortions and visual requirements that differ markedly from those of professionally-generated content (PGC) videos and user-generated content (UGC) videos. However, dedicated research on quality assessment of RGC videos is still lacking. To address this gap and to support broader robotic applications, we establish the first Robotic-Generated Content Database (RGCD), which contains a total of 2,100 videos drawn from three robot categories and sourced from diverse platforms. A subjective VQA experiment is conducted subsequently to assess human visual perception of robotic-generated videos. Finally, we conduct a benchmark experiment to evaluate the performance of 11 state-of-the-art VQA models on our database. Experimental results reveal significant limitations in existing VQA models when applied to complex, robotic-generated content, highlighting a critical need for RGC-specific VQA models. Our RGCD is publicly available at: https://github.com/IntMeGroup/RGC-VQA.
- Abstract(参考訳): カメラを搭載したロボットプラットフォームが日々の生活に統合されるようになるにつれ、ロボット生成ビデオはストリーミングメディアプラットフォームに登場し始めており、人間とロボットが共存する未来を想像することができる。
本稿では,ロボットの自我中心的な視点から生成された映像を表現するために,ロボット生成コンテンツ(RGC)の概念を革新的に提案する。
RGCビデオはプロが生成するコンテンツ(PGC)ビデオとユーザ生成するコンテンツ(UGC)ビデオとは大きく異なる独特の歪みと視覚的要求を示す。
しかし、RGCビデオの品質評価に関する専門的な研究はいまだに欠落している。
このギャップに対処し、より広範なロボットアプリケーションをサポートするため、我々は3つのロボットカテゴリから抽出され、多様なプラットフォームからソースされる合計2,100本のビデオを含む、最初のロボット生成コンテンツデータベース(RGCD)を構築した。
その後、ロボット生成ビデオの人間の視覚知覚を評価するために、主観的なVQA実験が実施される。
最後に、データベース上で11の最先端VQAモデルの性能を評価するためのベンチマーク実験を行う。
実験結果から、複雑なロボット生成コンテンツに適用した場合、既存のVQAモデルに重大な制限が見られ、RGC固有のVQAモデルにとって重要な必要性が浮かび上がっている。
私たちのRGCDは、https://github.com/IntMeGroup/RGC-VQA.comで公開されています。
関連論文リスト
- Is Single-View Mesh Reconstruction Ready for Robotics? [63.29645501232935]
本稿では,ロボット操作におけるディジタル双対環境構築のための単一視点メッシュ再構成モデルについて述べる。
ロボット工学の文脈における3次元再構成のベンチマーク基準を確立する。
コンピュータビジョンベンチマークの成功にもかかわらず、既存のアプローチはロボティクス固有の要件を満たしていない。
論文 参考訳(メタデータ) (2025-05-23T14:35:56Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs [98.37571997794072]
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)について紹介する。
CVRR-ESは、11種類の実世界のビデオ次元にわたるビデオLMMの性能を包括的に評価する。
我々の発見は、次世代の人間中心AIシステムを構築する上で貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T17:59:45Z) - Action-conditioned Deep Visual Prediction with RoAM, a new Indoor Human
Motion Dataset for Autonomous Robots [1.7778609937758327]
ロボット自律運動(RoAM)ビデオデータセットについて紹介する。
このロボットは、ロボットのエゴビジョンから様々な人間の動きを記録する様々な屋内環境において、カスタムメイドのタートルボット3バーガーロボットで収集される。
データセットには、LiDARスキャンの同期記録や、静的で動く人間のエージェントの周りを移動する際にロボットが取るすべての制御アクションも含まれている。
論文 参考訳(メタデータ) (2023-06-28T00:58:44Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。