論文の概要: HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics
- arxiv url: http://arxiv.org/abs/2512.00885v1
- Date: Sun, 30 Nov 2025 13:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.482942
- Title: HanDyVQA: A Video QA Benchmark for Fine-Grained Hand-Object Interaction Dynamics
- Title(参考訳): HanDyVQA: ファイングラインドハンドオブジェクトインタラクションダイナミクスのためのビデオQAベンチマーク
- Authors: Masatoshi Tateno, Gido Kato, Hirokatsu Kataoka, Yoichi Sato, Takuma Yagi,
- Abstract要約: 我々は、HOIの操作と効果の両方を包括的にカバーする、きめ細かいビデオ探索ベンチマークであるHanDyVQAを紹介する。
HanDyVQAは6つの補完的な質問タイプ(Action、Process、Objects、Location、State Change、Object Parts)で構成され、合計11.1Kのマルチ選択QAペアである。
我々は,最新のビデオ基礎モデルをベンチマークで評価したところ,最高のパフォーマンスモデルであるGemini-2.5Pro-2.5でさえ平均精度は73%に過ぎなかった。
- 参考スコア(独自算出の注目度): 29.120898351831443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-object interaction (HOI) inherently involves dynamics where human manipulations produce distinct spatio-temporal effects on objects. However, existing semantic HOI benchmarks focused either on manipulation or on the resulting effects at a coarse level, lacking fine-grained spatio-temporal reasoning to capture the underlying dynamics in HOI. We introduce HanDyVQA, a fine-grained video question-answering benchmark that comprehensively covers both the manipulation and effect aspects of HOI. HanDyVQA comprises six complementary question types (Action, Process, Objects, Location, State Change, and Object Parts), totalling 11.1K multiple-choice QA pairs. Collected QA pairs recognizing manipulation styles, hand/object motions, and part-level state changes. HanDyVQA also includes 10.3K segmentation masks for Objects and Object Parts questions, enabling the evaluation of object/part-level reasoning in video object segmentation. We evaluated recent video foundation models on our benchmark and found that even the best-performing model, Gemini-2.5-Pro, reached only 73% average accuracy, which is far from human performance (97%). Further analysis shows the remaining challenges in spatial relationship, motion, and part-level geometric understanding. We also found that integrating explicit HOI-related cues into visual features improves performance, offering insights for developing future models with a deeper understanding of HOI dynamics.
- Abstract(参考訳): ハンド・オブジェクト・インタラクション(HOI)は本質的に、人間の操作が物体に異なる時空間的効果をもたらすダイナミクスに関係している。
しかし、既存のセマンティックHOIベンチマークは、操作または結果の粗いレベルでの影響に焦点を当てており、HOIの基盤となるダイナミクスを捉えるための微細な時空間推論を欠いている。
我々は、HOIの操作と効果の両方を包括的にカバーする、きめ細かいビデオ質問応答ベンチマークであるHanDyVQAを紹介する。
HanDyVQAは6つの補完的な質問タイプ(Action, Process, Objects, Location, State Change, Object Parts)、合計11.1Kの複数選択QAペアで構成されている。
操作スタイル、手/物の動き、部分レベルの状態変化を認識するQAペアの収集。
HanDyVQAには、オブジェクトとオブジェクト部品の質問のための10.3Kセグメンテーションマスクが含まれており、ビデオオブジェクトセグメンテーションにおけるオブジェクト/部分レベルの推論の評価を可能にする。
最新のビデオ基盤モデルをベンチマークで評価した結果,最高のパフォーマンスモデルであるGemini-2.5-Proでさえ平均精度は73%に過ぎず,人的性能(97%)には程遠いことがわかった。
さらなる分析は、空間的関係、運動、および部分レベルの幾何学的理解における残りの課題を示している。
また、明快なHOI関連キューを視覚的特徴に統合することでパフォーマンスが向上し、HOIのダイナミクスをより深く理解した将来のモデルを開発する上での洞察が得られました。
関連論文リスト
- DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis [17.750053029702222]
既存のテキスト・トゥ・ビデオ(T2V)評価ベンチマークであるVBenchやEvalCrafterには2つの制限がある。
ダイナミックカメラの動きを強調するプロンプトを体系的にキュレートしたベンチマークであるDynamicEvalを紹介する。
背景環境の整合性を示すために,Vbench運動の滑らか度測定値に基づく解釈可能な誤差マップを得る。
提案手法は,映像レベルとモデルレベルの両方において,人間の嗜好と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-10-08T18:41:04Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。