論文の概要: CuriosAI Submission to the EgoExo4D Proficiency Estimation Challenge 2025
- arxiv url: http://arxiv.org/abs/2507.08022v1
- Date: Tue, 08 Jul 2025 12:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.098798
- Title: CuriosAI Submission to the EgoExo4D Proficiency Estimation Challenge 2025
- Title(参考訳): エゴエクソ4D熟練度評価チャレンジ2025に参加して
- Authors: Hayato Tanoue, Hiroki Nishihara, Yuma Suzuki, Takayuki Hori, Hiroki Takushima, Aiswariya Manojkumar, Yuki Shibata, Mitsuru Takeda, Fumika Beppu, Zhao Hengwei, Yuto Kanda, Daichi Yamaga,
- Abstract要約: 本報告では,CVPR 2025におけるEgoExo4D Estimation ChallengeへのCuriosAIチームの提出について述べる。
そこで我々は,(1)サピエンス-2Bを用いたマルチタスク学習フレームワークの精度とシナリオラベルの同時予測(43.6%の精度),(2)ゼロショットシナリオ認識とビュー固有のビデオMAE分類器(47.8%の精度)を組み合わせた2段階パイプラインを提案する。
2段階アプローチの優れた性能は、熟練度推定のためのシナリオ条件付きモデリングの有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents the CuriosAI team's submission to the EgoExo4D Proficiency Estimation Challenge at CVPR 2025. We propose two methods for multi-view skill assessment: (1) a multi-task learning framework using Sapiens-2B that jointly predicts proficiency and scenario labels (43.6 % accuracy), and (2) a two-stage pipeline combining zero-shot scenario recognition with view-specific VideoMAE classifiers (47.8 % accuracy). The superior performance of the two-stage approach demonstrates the effectiveness of scenario-conditioned modeling for proficiency estimation.
- Abstract(参考訳): 本報告では,CVPR 2025におけるEgoExo4D習熟度推定チャレンジへのCuriosAIチームの提出について述べる。
そこで我々は,(1)サピエンス2Bを用いたマルチタスク学習フレームワークを用いて,習熟度とシナリオラベルの同時予測(43.6%の精度)と(2)ゼロショットシナリオ認識とビュー固有のビデオMAE分類器(47.8%の精度)を組み合わせた2段階パイプラインを提案する。
2段階アプローチの優れた性能は、熟練度推定のためのシナリオ条件付きモデリングの有効性を示す。
関連論文リスト
- KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - ASDA: Audio Spectrogram Differential Attention Mechanism for Self-Supervised Representation Learning [57.67273340380651]
実験の結果,ASDAモデルは複数のベンチマークでSOTA(State-of-the-art)性能を達成できた。
これらの結果は、ASDAの音声タスクにおける有効性を強調し、より広範なアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-07-03T14:29:43Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation [70.27631454256024]
SkillVerseは、特定の能力におけるモデル習熟度を理解するための教師なしツリー構造化診断フレームワークである。
任意のレベルの粒度の習熟度を考慮すれば、SkillVerseはモダンな大規模モデルの振る舞いの洞察を生み出す柔軟性がある。
論文 参考訳(メタデータ) (2025-05-31T00:08:59Z) - CLaC at SemEval-2025 Task 6: A Multi-Architecture Approach for Corporate Environmental Promise Verification [0.20482269513546458]
本稿では,企業ESG(環境・社会・ガバナンス)レポートにおける約束の検証に焦点を当てたSemEval-2025 Task6(PromiseEval)について述べる。
本研究では,3つのモデルアーキテクチャを探索し,確証評価,明確性評価,検証タイミングの4つのサブタスクに対処する。
本研究は,クラス不均衡や限られた訓練データによる課題にもかかわらず,言語的特徴抽出,注意プーリング,多目的学習の有効性を強調した。
論文 参考訳(メタデータ) (2025-05-29T15:19:00Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - Solution for OOD-CV Workshop SSB Challenge 2024 (Open-Set Recognition Track) [6.998958192483059]
課題は、テストサンプルが分類器のトレーニングセットのセマンティッククラスに属しているかどうかを特定することであった。
我々は,ポストホックOOD検出技術とテスト時間拡張戦略を融合したハイブリッド手法を提案する。
AUROCとFPR95のスコアのバランスを保ちながら,テスト時間拡張とポストホックOODを併用したベストパフォーマンス手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:28:14Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - KaLM at SemEval-2020 Task 4: Knowledge-aware Language Models for
Comprehension And Generation [4.94950858749529]
本稿では,3つのサブタスクのバックボーンとして,エビデンスを探索し,様々な大規模事前学習モデルを選択する方法を提案する。
その結果,エビデンス調査手法により,コモンセンス説明課題におけるモデル性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-24T15:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。