Fugu-MT 論文翻訳(概要): EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

論文の概要: EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

arxiv url: http://arxiv.org/abs/2502.07411v1
Date: Tue, 11 Feb 2025 09:45:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.094431
Title: EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering
Title（参考訳）: EgoTextVQA:Egocentric Scene-Aware Video Question Answering
Authors: Sheng Zhou, Junbin Xiao, Qingyun Li, Yicong Li, Xun Yang, Dan Guo, Meng Wang, Tat-Seng Chua, Angela Yao,
Abstract要約: シーンテキストを含むエゴセントリックなQA支援のための,斬新で厳密に構築されたベンチマークであるEgoTextVQAを紹介する。 EgoTextVQAには1.5Kのエゴビュービデオと7Kのシーンテキスト対応の質問が含まれており、屋外運転や屋内ホームキーピング活動における実際のユーザのニーズを反映している。
参考スコア（独自算出の注目度）: 95.2396264550978
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce EgoTextVQA, a novel and rigorously constructed benchmark for egocentric QA assistance involving scene text. EgoTextVQA contains 1.5K ego-view videos and 7K scene-text aware questions that reflect real-user needs in outdoor driving and indoor house-keeping activities. The questions are designed to elicit identification and reasoning on scene text in an egocentric and dynamic environment. With EgoTextVQA, we comprehensively evaluate 10 prominent multimodal large language models. Currently, all models struggle, and the best results (Gemini 1.5 Pro) are around 33% accuracy, highlighting the severe deficiency of these techniques in egocentric QA assistance. Our further investigations suggest that precise temporal grounding and multi-frame reasoning, along with high resolution and auxiliary scene-text inputs, are key for better performance. With thorough analyses and heuristic suggestions, we hope EgoTextVQA can serve as a solid testbed for research in egocentric scene-text QA assistance.
Abstract（参考訳）: シーンテキストを含むエゴセントリックなQA支援のための,斬新で厳密に構築されたベンチマークであるEgoTextVQAを紹介する。 EgoTextVQAには1.5Kのエゴビュービデオと7Kのシーンテキスト対応の質問が含まれており、屋外運転や屋内ホームキーピング活動における実際のユーザのニーズを反映している。質問は、エゴセントリックでダイナミックな環境におけるシーンテキストの識別と推論を促すように設計されている。 EgoTextVQAでは,10の顕著な多モーダル大言語モデルを総合的に評価する。現在、すべてのモデルが苦労しており、最良の結果(Gemini 1.5 Pro)は約33%の精度で、エゴセントリックなQA支援におけるこれらのテクニックの深刻な欠如を浮き彫りにしている。さらに,高精度な時間的接地と多フレーム推論,高解像度および補助的なシーンテキスト入力が性能向上の鍵であることが示唆された。徹底的な分析とヒューリスティックな提案により、EgoTextVQAは、エゴセントリックなシーンテキストQA支援の研究のための確固たるテストベッドとして機能することを願っている。

関連論文リスト

Ego-EXTRA: video-language Egocentric Dataset for EXpert-TRAinee assistance [19.081509891187114]
提案するEgo-EXTRAは,Expert-TRAinee支援のためのビデオ言語Egocentricデータセットである。 Ego-EXTRAは、手続き的な活動を行う被験者の50時間のエゴセントリックなビデオが特徴である。現実世界の専門家は、自然言語を使ってガイダンスを提供し、特定の質問に答える。
論文参考訳（メタデータ） (2025-12-15T11:53:35Z)
EgoThinker: Unveiling Egocentric Reasoning with Spatio-Temporal CoT [56.24624833924252]
EgoThinkerは、時間的連鎖管理と2段階の学習カリキュラムを通じて、堅牢なエゴセントリック推論能力を備えたMLを支援するフレームワークである。 EgoThinkerは、複数のエゴセントリックなベンチマークで既存のメソッドよりも優れており、微粒な時間的ローカライゼーションタスクで大幅に改善されている。
論文参考訳（メタデータ） (2025-10-27T17:38:17Z)
ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos [71.62145804686062]
我々は,600個のエゴセントリックな空間ビデオとそれらの平均評価スコア(MOS)からなる,最初のエゴセントリックな空間ビデオ品質評価データベース(ESVQAD)を紹介する。両眼の空間, 動き, 意味的特徴を統合し, 知覚品質を予測できる新しい多次元両眼機能融合モデル ESVQAnet を提案する。 ESVQAnetは知覚品質評価タスクにおいて16の最先端VQAモデルより優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2024-12-29T10:13:30Z)
MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。 Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文参考訳（メタデータ） (2024-10-09T17:59:59Z)
Scene-Text Grounding for Text-Based Video Question Answering [97.1112579979614]
テキストベースのビデオ質問応答(TextVideoQA)の既存の取り組みは、不透明な意思決定とシーンテキスト認識への依存で批判されている。我々は,モデルに質問への回答を強制し,関連するシーンテキスト領域を解釈させることにより,グラウンドドテキストビデオQAを研究する。
論文参考訳（メタデータ） (2024-09-22T05:13:11Z)
AMEGO: Active Memory from long EGOcentric videos [26.04157621755452]
非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。 AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに焦点を当てる。この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。
論文参考訳（メタデータ） (2024-09-17T06:18:47Z)
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文参考訳（メタデータ） (2024-06-26T05:01:37Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。上記の課題を解決するために,本課題の解決策を提案する。
論文参考訳（メタデータ） (2022-08-10T14:43:37Z)
TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文参考訳（メタデータ） (2022-08-03T02:18:09Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)
Data augmentation techniques for the Video Question Answering task [16.548016892117083]
われわれは、Egocentric VideoQAタスクに重点を置いている。サイズが小さいため、モデルはすぐにオーバーフィットする傾向にある。提案手法は,検討されたベースラインに対して,最終的な精度を+5.5%向上させるものである。
論文参考訳（メタデータ） (2020-08-22T14:34:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。