論文の概要: Video Action Differencing
- arxiv url: http://arxiv.org/abs/2503.07860v1
- Date: Mon, 10 Mar 2025 21:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:21.388570
- Title: Video Action Differencing
- Title(参考訳): Video Action Difference
- Authors: James Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy,
- Abstract要約: 我々は、同じアクションのビデオ間の微妙な違いを識別する新しいタスクである、ビデオアクションダイファレンス(VidDiff)を紹介する。
最初に、549のビデオペアを含むベンチマークデータセットであるVidDiffBenchを作成します。
我々の実験は、VidDiffBenchが最先端の大規模マルチモーダルモデルに重大な課題をもたらすことを示した。
- 参考スコア(独自算出の注目度): 92.3218782696305
- License:
- Abstract: How do two individuals differ when performing the same action? In this work, we introduce Video Action Differencing (VidDiff), the novel task of identifying subtle differences between videos of the same action, which has many applications, such as coaching and skill learning. To enable development on this new task, we first create VidDiffBench, a benchmark dataset containing 549 video pairs, with human annotations of 4,469 fine-grained action differences and 2,075 localization timestamps indicating where these differences occur. Our experiments demonstrate that VidDiffBench poses a significant challenge for state-of-the-art large multimodal models (LMMs), such as GPT-4o and Qwen2-VL. By analyzing failure cases of LMMs on VidDiffBench, we highlight two key challenges for this task: localizing relevant sub-actions over two videos and fine-grained frame comparison. To overcome these, we propose the VidDiff method, an agentic workflow that breaks the task into three stages: action difference proposal, keyframe localization, and frame differencing, each stage utilizing specialized foundation models. To encourage future research in this new task, we release the benchmark at https://huggingface.co/datasets/jmhb/VidDiffBench and code at http://jmhb0.github.io/viddiff.
- Abstract(参考訳): 同じ行動を行う場合、2つの個人はどのように異なるのか?
本研究では,同じアクションのビデオ間の微妙な相違を識別する新しいタスクであるビデオアクションディファレンス(VidDiff)を紹介する。
この新しいタスクの開発を可能にするために、まず549のビデオペアを含むベンチマークデータセットであるVidDiffBenchを作成し、4,469の細かいアクション差と2,075のローカライゼーションタイムスタンプを人間のアノテーションで示す。
実験の結果,VidDiffBench は GPT-4o や Qwen2-VL といった最先端の大規模マルチモーダルモデル (LMM) にとって重要な課題であることがわかった。
VidDiffBench上でのLMMの故障事例を解析することにより、2つのビデオ上の関連するサブアクションのローカライズと、きめ細かいフレーム比較という2つの課題を強調した。
そこで本研究では,アクション差分提案,キーフレームのローカライゼーション,フレーム差分処理の3段階に分割したエージェントワークフローであるVidDiff法を提案する。
この新しいタスクの今後の研究を促進するため、ベンチマークはhttps://huggingface.co/datasets/jmhb/VidDiffBenchで、コードはhttp://jmhb0.github.io/viddiffでリリースします。
関連論文リスト
- DLM-VMTL:A Double Layer Mapper for heterogeneous data video Multi-task prompt learning [2.4121373594852846]
マルチタスク学習は、視覚的なタスクが、共同トレーニング中に他のタスクから豊富な共有可能な知識を取得するようにする。
上記の問題に対処するために, Heterogenous data video multi-task prompt learning (VMTL) 法を提案する。
Double-Layers Mapper(DLM)は、共有可能な知識を視覚的プロンプトSに抽出し、プライマリタスクの表現と整合させる。
論文 参考訳(メタデータ) (2024-08-29T01:25:36Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - TarViS: A Unified Approach for Target-based Video Segmentation [115.5770357189209]
TarViSは、ビデオで任意に定義された「ターゲット」の集合をセグメント化する必要があるあらゆるタスクに適用できる、新しく統合されたネットワークアーキテクチャである。
我々のアプローチは、タスクがこれらのターゲットをどのように定義するかに関して柔軟であり、後者を抽象的な「クエリ」としてモデル化し、ピクセル精度の高いターゲットマスクを予測するのに使用される。
その有効性を示すために、TarViSをビデオインスタンス(VIS)、ビデオパノプティクス(VPS)、ビデオオブジェクト(VOS)、ポイントインテンプラ誘導トラッキング(PET)の4つのタスクに適用する。
論文 参考訳(メタデータ) (2023-01-06T18:59:52Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。