論文の概要: EgoAdapt: A Multi-Scene Egocentric Adaptation Method for CVPR 2026 HD-EPIC VQA Challenge
- arxiv url: http://arxiv.org/abs/2605.24500v1
- Date: Sat, 23 May 2026 10:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.137225
- Title: EgoAdapt: A Multi-Scene Egocentric Adaptation Method for CVPR 2026 HD-EPIC VQA Challenge
- Title(参考訳): EgoAdapt: CVPR 2026 HD-EPIC VQAチャレンジのためのマルチシーンエゴセントリック適応手法
- Authors: Zhiwei Chen, Yupeng Hu, Zixu Li, Zhiheng Fu, Guozhi Qiu, Weili Guan, Liqiang Nie,
- Abstract要約: HD-EPICは、視覚言語モデルが現実的なファースト・パーソン・キッチン・ビデオよりも推論できるかどうかを評価する。
ベンチマークには7つのマクロカテゴリにわたる26Kの多重選択質問が含まれている。
EgoAdaptでは,(1)カテゴリ毎のプロンプト,フレーム予算,サンプリングレートによるカテゴリ条件付きルーティング,(2)直接生成に頼るのではなく,文字読み上げ可能性と生成合意によるすべての候補回答を評価するオプションスコアリング,(3)オプションの置換と検証スタイルのプロンプトにまたがる予測を集約するテスト時整合適応という,3つの推論時コンポーネントを導入している。
- 参考スコア(独自算出の注目度): 69.56534058291463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents our solution, EgoAdapt (Egocentric Adaptation via Category, Calibration, and Consistency), to the CVPR 2026 HD-EPIC VQA challenge. HD-EPIC evaluates whether a vision-language model can reason over realistic first-person kitchen videos, where the evidence for an answer may be a short hand-object interaction, a long recipe trajectory, a spatial relation to a fixture, or a subtle gaze cue. The benchmark contains 26K multiple-choice questions across seven macro-categories: recipe, ingredient, nutrition, fine-grained action, 3D perception, object motion, and gaze. We observe that the main difficulty is not only model capacity, but also the mismatch between a single generic inference recipe and the heterogeneous temporal, spatial, and semantic structure of the benchmark. Our method, EgoAdapt, introduces three inference-time components: (1) category-conditioned routing with per-category prompts, frame budgets, and sampling rates; (2) calibrated option scoring that evaluates all candidate answers with letter-token likelihoods and generation agreement instead of relying only on direct generation; and (3) test-time consistency adaptation that aggregates predictions across option permutations and verification-style prompts for ambiguous cases. This design substantially improves over the available HD-EPIC baselines.
- Abstract(参考訳): 本技術報告では,CVPR 2026 HD-EPIC VQA課題に対するEgoAdapt(カテゴリ,キャリブレーション,一貫性によるEgocentric Adaptation)というソリューションを提示する。
HD-EPICは、視覚言語モデルが現実的なファーストパーソンのキッチンビデオよりも推論できるかどうかを評価しており、答えの証拠は、短い手-オブジェクトの相互作用、長いレシピの軌跡、フィクスチャとの空間的関係、微妙な視線キューである可能性がある。
このベンチマークには、レシピ、食材、栄養、きめ細かいアクション、3D知覚、物体の動き、視線という7つのマクロカテゴリにまたがる26万の質問が含まれている。
主な難易度はモデルキャパシティだけでなく,1つのジェネリック推論レシピとベンチマークの不均一な時間的,空間的,意味的な構造とのミスマッチも観察する。
提案手法では,(1)カテゴリ毎のプロンプト,フレーム予算,サンプリング率によるカテゴリー条件付きルーティング,(2)直接生成のみに依存するのではなく,文字の確率と生成合意による全ての候補回答を評価するキャリブレーションされたオプションスコア,(3)オプションの置換と検証スタイルのプロンプトを集約したテスト時整合性適応,の3つを導入している。
この設計は、利用可能なHD-EPICベースラインよりも大幅に改善されている。
関連論文リスト
- CMAG: Concept-Scaffolded Retrieval for Marketplace Avatar Generation [0.5131152350448099]
メタバースプラットフォームは、アバターを個別に分類された3D資産から組み立てるクリエーター主導の市場に依存している。
マーケットプレース生成のための概念スキャフォールド検索および検証済み合成フレームワークである textbfCMAG を提案する。
論文 参考訳(メタデータ) (2026-05-18T17:21:43Z) - LoViF 2026 The First Challenge on Holistic Quality Assessment for 4D World Model (PhyScore) [130.91833247554004]
LoViF 2026 PhyScoreチャレンジは、ワールドモデル生成ビデオの全体的な品質評価に関する競争である。
ベンチマークデータセットには、7つの代表的な世界生成モデルによって生成された1,554のビデオが含まれている。
本報告では,課題設計を要約し,提案したソリューションからメソッドレベルの洞察を提供する。
論文 参考訳(メタデータ) (2026-05-06T17:52:39Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - HERO-VQL: Hierarchical, Egocentric and Robust Visual Query Localization [13.581537394737923]
本稿では,物体認識における人間の認知プロセスに触発された新しい手法であるHERO-VQLを紹介する。
トップダウン 注意誘導は、高レベルのコンテキストにクラストークンを活用することで、注意機構を洗練します。
EgoAugは、クエリを基底アノテーションからランダムに選択された対応するオブジェクトに置き換えることで、クエリの多様性を向上させる。
論文 参考訳(メタデータ) (2025-08-30T06:50:49Z) - Towards Variable and Coordinated Holistic Co-Speech Motion Generation [21.244719987338243]
本稿では,3次元アバターの音声合成におけるライフライクな音声合成の問題点について述べる。
ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。
論文 参考訳(メタデータ) (2024-03-30T13:41:57Z) - Hybrid Relation Guided Set Matching for Few-shot Action Recognition [51.3308583226322]
本稿では,2つの鍵成分を組み込んだHybrid Relation Guided Set Matching (HyRSM) 手法を提案する。
ハイブリッドリレーションモジュールの目的は、エピソード内の関連関係とクロスビデオの完全活用により、タスク固有の埋め込みを学習することである。
我々は,HyRSMを6つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-04-28T11:43:41Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。