論文の概要: VUDG: A Dataset for Video Understanding Domain Generalization
- arxiv url: http://arxiv.org/abs/2505.24346v1
- Date: Fri, 30 May 2025 08:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.852556
- Title: VUDG: A Dataset for Video Understanding Domain Generalization
- Title(参考訳): VUDG: ビデオ理解領域の一般化のためのデータセット
- Authors: Ziyi Wang, Zhi Gao, Boxuan Yu, Zirui Dai, Yuxiang Song, Qingyuan Lu, Jin Chen, Xinxiao Wu,
- Abstract要約: Video Understanding Domain Generalization (VUDG) は、ビデオ理解におけるDGのパフォーマンスを評価するために特別に設計された注釈付きデータセットである。
VUDGには、3つのタイプのドメインシフトをカバーする11の異なるドメインのビデオが含まれており、公正で意味のある評価を保証するために、異なるドメイン間のセマンティックな類似性を維持している。
- 参考スコア(独自算出の注目度): 29.27464392754555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding has made remarkable progress in recent years, largely driven by advances in deep models and the availability of large-scale annotated datasets. However, existing works typically ignore the inherent domain shifts encountered in real-world video applications, leaving domain generalization (DG) in video understanding underexplored. Hence, we propose Video Understanding Domain Generalization (VUDG), a novel dataset designed specifically for evaluating the DG performance in video understanding. VUDG contains videos from 11 distinct domains that cover three types of domain shifts, and maintains semantic similarity across different domains to ensure fair and meaningful evaluation. We propose a multi-expert progressive annotation framework to annotate each video with both multiple-choice and open-ended question-answer pairs. Extensive experiments on 9 representative large video-language models (LVLMs) and several traditional video question answering methods show that most models (including state-of-the-art LVLMs) suffer performance degradation under domain shifts. These results highlight the challenges posed by VUDG and the difference in the robustness of current models to data distribution shifts. We believe VUDG provides a valuable resource for prompting future research in domain generalization video understanding.
- Abstract(参考訳): ビデオ理解は、ディープモデルの発展と大規模な注釈付きデータセットの利用によって、近年顕著な進歩を遂げている。
しかし、既存の研究は、実際のビデオアプリケーションで発生する固有のドメインシフトを無視し、ビデオ理解におけるドメイン一般化(DG)を過小評価している。
そこで本稿では,ビデオ理解におけるDG性能を評価するための新しいデータセットとして,ビデオ理解領域一般化(VUDG)を提案する。
VUDGには、3つのタイプのドメインシフトをカバーする11の異なるドメインのビデオが含まれており、公正で意味のある評価を保証するために、異なるドメイン間のセマンティックな類似性を維持している。
複数選択とオープンな問合せのペアで各ビデオにアノテートを行うマルチエキスパートプログレッシブアノテーションフレームワークを提案する。
9つの代表的大規模ビデオ言語モデル(LVLM)といくつかの従来のビデオ質問応答手法による大規模な実験により、ほとんどのモデル(最先端のLVLMを含む)がドメインシフトによって性能低下することが示された。
これらの結果は、VUDGがもたらす課題と、現在のモデルとデータ分散シフトの堅牢性の違いを浮き彫りにしている。
VUDGは、領域一般化ビデオ理解における今後の研究を促進する貴重なリソースであると考えています。
関連論文リスト
- Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - Diversifying Spatial-Temporal Perception for Video Domain Generalization [32.49202592793828]
ビデオドメインの一般化は、ソースドメインでトレーニングすることで、目に見えないターゲットドメインに対する一般化可能なビデオ分類モデルを学ぶことを目的としている。
そこで本稿では,ドメイン固有の手がかりに加えて,潜在的なドメイン不変の手がかりを発見することを目的として,ビデオにおける多様な時空間的手がかりを知覚することを提案する。
論文 参考訳(メタデータ) (2023-10-27T07:36:36Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Generative Adversarial Networks for Video-to-Video Domain Adaptation [32.670977389990306]
本稿では,ビデオベースデータを異なるドメイン間で転送するための新しい生成逆ネットワーク(GAN, VideoGAN)を提案する。
映像のフレームには類似した内容と撮像条件がある可能性があるため、提案したビデオGANは、映像内部の一貫性を維持するためのX字型ジェネレータを備えている。
CVC-ClinicとETIS-Laribの2つの大腸内視鏡的データセットを用いて,ビデオGANの性能評価を行った。
論文 参考訳(メタデータ) (2020-04-17T04:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。