論文の概要: HCQA-1.5 @ Ego4D EgoSchema Challenge 2025
- arxiv url: http://arxiv.org/abs/2505.20644v1
- Date: Tue, 27 May 2025 02:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.361306
- Title: HCQA-1.5 @ Ego4D EgoSchema Challenge 2025
- Title(参考訳): HCQA-1.5 @Ego4D EgoSchema Challenge 2025
- Authors: Haoyu Zhang, Yisen Feng, Qiaohui Chu, Meng Liu, Weili Guan, Yaowei Wang, Liqiang Nie,
- Abstract要約: 本稿では,CVPR 2025におけるEgo4D Egocentric Challengeの3位を獲得する方法を提案する。
提案手法では,多様な予測を生成するマルチソースアグリゲーション戦略を導入し,次いで信頼性に基づくフィルタリング機構を提案する。
本手法は,5000以上の質問に対して77%の精度を達成している。
- 参考スコア(独自算出の注目度): 77.414837862995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present the method that achieves third place for Ego4D EgoSchema Challenge in CVPR 2025. To improve the reliability of answer prediction in egocentric video question answering, we propose an effective extension to the previously proposed HCQA framework. Our approach introduces a multi-source aggregation strategy to generate diverse predictions, followed by a confidence-based filtering mechanism that selects high-confidence answers directly. For low-confidence cases, we incorporate a fine-grained reasoning module that performs additional visual and contextual analysis to refine the predictions. Evaluated on the EgoSchema blind test set, our method achieves 77% accuracy on over 5,000 human-curated multiple-choice questions, outperforming last year's winning solution and the majority of participating teams. Our code will be added at https://github.com/Hyu-Zhang/HCQA.
- Abstract(参考訳): 本稿では,CVPR 2025におけるEgo4D EgoSchema Challengeの3位となる手法を提案する。
自己中心型ビデオ質問応答における回答予測の信頼性を向上させるために,提案したHCQAフレームワークを効果的に拡張する手法を提案する。
提案手法では,多様な予測を生成するマルチソースアグリゲーション戦略を導入し,次いで高信頼度回答を直接選択する信頼度に基づくフィルタリング機構を提案する。
低信頼の場合、予測を洗練させるために視覚的および文脈的分析を行う細粒度推論モジュールを組み込む。
EgoSchemaのブラインドテストセットに基づいて評価し,5000人以上の質問に対して77%の精度を達成し,昨年の勝率と参加チームの過半数を上回った。
私たちのコードはhttps://github.com/Hyu-Zhang/HCQA.comで追加されます。
関連論文リスト
- Correct after Answer: Enhancing Multi-Span Question Answering with Post-Processing Method [11.794628063040108]
マルチスパン質問回答(Multi-Span Question Answering、MSQA)は、ある質問に答えるために、与えられたコンテキストから1つまたは複数の回答スパンを抽出するモデルを必要とする。
本稿では,不正確な予測処理に後処理戦略を用いるAnswering-Classifying-Correcting(ACC)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-22T08:04:32Z) - HCQA @ Ego4D EgoSchema Challenge 2024 [51.57555556405898]
HCQAという,エゴセントリックなビデオ質問応答方式を提案する。
細粒度キャプション生成、コンテキスト駆動の要約、推論誘導解答の3段階で構成されている。
盲目テストセットでは、HCQAは5000以上の人間選択質問に答える精度が75%に達する。
論文 参考訳(メタデータ) (2024-06-22T07:20:39Z) - Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning [67.82016092549284]
本稿では,選択型視覚言語システムの過剰保持を低減するための推論時アルゴリズムReCoVERRを紹介する。
ReCoVERRは、予測のための追加の証拠を提供する画像の中に、関連する手がかりを見つけようとする。
論文 参考訳(メタデータ) (2024-02-23T21:16:52Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Egocentric Video-Language Pretraining @ EPIC-KITCHENS-100 Multi-Instance
Retrieval Challenge 2022 [22.299810960572348]
EPIC-KITCHENS-100 Multi-Instance Retrieval (MIR) のためのビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
ベストシングルモデルは、47.39% mAP と 61.44% nDCG のチャレンジテストセットで高い性能を得る。
論文 参考訳(メタデータ) (2022-07-04T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。