論文の概要: GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot
Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2401.10039v1
- Date: Thu, 18 Jan 2024 15:04:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:11:06.145682
- Title: GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot
Egocentric Action Recognition
- Title(参考訳): GPT4Ego:ゼロショットエゴセントリック行動認識のための事前学習モデルの可能性
- Authors: Guangzhao Dai, Xiangbo Shu, Wenhao Wu
- Abstract要約: GPT4Egoは、ZS-EAR向けの単純だが驚くほど強力なVLMフレームワークである。
GPT4Egoは3つの大規模エゴセントリックビデオベンチマークにおいて既存のVLMよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 43.11538097436442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs), pre-trained on large-scale datasets, have
shown impressive performance in various visual recognition tasks. This
advancement paves the way for notable performance in Zero-Shot Egocentric
Action Recognition (ZS-EAR). Typically, VLMs handle ZS-EAR as a global
video-text matching task, which often leads to suboptimal alignment of vision
and linguistic knowledge. We propose a refined approach for ZS-EAR using VLMs,
emphasizing fine-grained concept-description alignment that capitalizes on the
rich semantic and contextual details in egocentric videos. In this paper, we
introduce GPT4Ego, a straightforward yet remarkably potent VLM framework for
ZS-EAR, designed to enhance the fine-grained alignment of concept and
description between vision and language. Extensive experiments demonstrate
GPT4Ego significantly outperforms existing VLMs on three large-scale egocentric
video benchmarks, i.e., EPIC-KITCHENS-100 (33.2%, +9.4%), EGTEA (39.6%, +5.5%),
and CharadesEgo (31.5%, +2.6%).
- Abstract(参考訳): 大規模データセットで事前トレーニングされた視覚言語モデル(VLM)は、様々な視覚認識タスクにおいて印象的なパフォーマンスを示している。
この進歩は、ZES-EAR(Zero-Shot Egocentric Action Recognition)における顕著なパフォーマンスの道を開く。
典型的には、vlmはzs-earをグローバルなビデオテキストマッチングタスクとして扱い、視覚と言語知識を最適化する。
VLMを用いたZS-EARの洗練されたアプローチを提案し、エゴセントリックなビデオにおけるリッチなセマンティクスとコンテキストの詳細を活かした、きめ細かな概念記述アライメントを強調した。
本稿では,視覚と言語間の概念や記述の微妙な整合性を高めることを目的とした,ZS-EAR のための直感的で驚くほど強力な VLM フレームワークである GPT4Ego を紹介する。
GPT4Egoは、EPIC-KITCHENS-100(33.2%、+9.4%)、EGTEA(39.6%、+5.5%)、CharadesEgo(31.5%、+2.6%)の3つの大規模なビデオベンチマークにおいて、既存のVLMを著しく上回っている。
関連論文リスト
- Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding [44.79843213164787]
身体化されたAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のビジョンランゲージモデル(VLM)は主に、エゴセントリックな体験の豊かさを無視して、第三者の視点ビデオに焦点を当てている。
本稿では,ビデオキャプションにおけるVLMのトレーニングや,エゴセントリックなビデオに特有の質問応答を行うためのEgocentric Video Understanding dataset(EVUD)を紹介する。
本稿では,EVUD 上でパラメータ効率の高い手法を用いて訓練した 7B パラメータ VLM である AlanaVLM を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:14:14Z) - WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。
WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。
実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文 参考訳(メタデータ) (2024-06-16T20:53:25Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation [55.2480439325792]
LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。
中国大学入学試験(GAokao-MM)に基づくマルチモーダルベンチマークであるGAokao-MMを提案する。
GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
論文 参考訳(メタデータ) (2024-02-24T06:57:15Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。