論文の概要: Episodic Memory Question Answering
- arxiv url: http://arxiv.org/abs/2205.01652v1
- Date: Tue, 3 May 2022 17:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:46:03.991101
- Title: Episodic Memory Question Answering
- Title(参考訳): エピソード記憶問題への回答
- Authors: Samyak Datta, Sameer Dharur, Vincent Cartillier, Ruta Desai, Mukul
Khanna, Dhruv Batra, Devi Parikh
- Abstract要約: 我々は、人間がAIエージェントと対話し、質問することで拡張現実デバイスを駆動するシナリオを思い描いている。
成功するためには、エゴAIアシスタントはセマンティックにリッチで効率的なシーン記憶を構築する必要がある。
EMQA(Episodic Memory Question Answering)という新しいタスクを紹介します。
私たちが選択したエピソードシーンメモリは、非常に競争力のあるベースラインのホストであると同時に、そのタスクに対して、単純でオフザセンシティブなソリューションよりも優れています。
- 参考スコア(独自算出の注目度): 55.83870351196461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric augmented reality devices such as wearable glasses passively
capture visual data as a human wearer tours a home environment. We envision a
scenario wherein the human communicates with an AI agent powering such a device
by asking questions (e.g., where did you last see my keys?). In order to
succeed at this task, the egocentric AI assistant must (1) construct
semantically rich and efficient scene memories that encode spatio-temporal
information about objects seen during the tour and (2) possess the ability to
understand the question and ground its answer into the semantic memory
representation. Towards that end, we introduce (1) a new task - Episodic Memory
Question Answering (EMQA) wherein an egocentric AI assistant is provided with a
video sequence (the tour) and a question as an input and is asked to localize
its answer to the question within the tour, (2) a dataset of grounded questions
designed to probe the agent's spatio-temporal understanding of the tour, and
(3) a model for the task that encodes the scene as an allocentric, top-down
semantic feature map and grounds the question into the map to localize the
answer. We show that our choice of episodic scene memory outperforms naive,
off-the-shelf solutions for the task as well as a host of very competitive
baselines and is robust to noise in depth, pose as well as camera jitter. The
project page can be found at: https://samyak-268.github.io/emqa .
- Abstract(参考訳): ウェアラブルグラスのようなエゴセントリックな拡張現実デバイスは、人間の着用者がホーム環境をツアーするとき、受動的に視覚データをキャプチャする。
我々は、人間がそのようなデバイスを動かすAIエージェントと対話するシナリオを思い描いている(例えば、最後に私のキーを見たのは?
このタスクを成功させるために、エゴセントリックなAIアシスタントは、(1)ツアー中に見たオブジェクトの時空間情報をエンコードするセマンティックにリッチで効率的なシーンメモリを構築し、(2)質問を理解し、その回答をセマンティックメモリ表現に基礎付ける能力を有する必要がある。
Towards that end, we introduce (1) a new task - Episodic Memory Question Answering (EMQA) wherein an egocentric AI assistant is provided with a video sequence (the tour) and a question as an input and is asked to localize its answer to the question within the tour, (2) a dataset of grounded questions designed to probe the agent's spatio-temporal understanding of the tour, and (3) a model for the task that encodes the scene as an allocentric, top-down semantic feature map and grounds the question into the map to localize the answer.
我々は,シーンメモリの選択が,タスクの単純で既成のソリューションよりも優れており,非常に競争力のあるベースラインのホストであり,奥行きのノイズやポーズ,カメラジッタに頑健であることを示す。
プロジェクトページはhttps://samyak-268.github.io/emqa。
関連論文リスト
- Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue [0.0]
現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
論文 参考訳(メタデータ) (2021-06-29T16:36:34Z) - Scene-Intuitive Agent for Remote Embodied Visual Grounding [89.73786309180139]
人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
このような人間の行動を模倣するエージェントを紹介します。
論文 参考訳(メタデータ) (2021-03-24T02:37:48Z) - Semantic MapNet: Building Allocentric Semantic Maps and Representations
from Egocentric Views [50.844459908504476]
セマンティックマッピングの課題について検討する。具体的には、エンボディエージェント(ロボットまたはエゴセントリックAIアシスタント)が新しい環境のツアーを受ける。
我々は、RGB-Dカメラのエゴセントリックな観察と既知のポーズから、トップダウンのセマンティックマップ("What is where?")を構築する。
本稿では、投影型カメラ幾何とニューラル表現学習の強みを組み合わせたSemanticMapNet(SMNet)を提案する。
論文 参考訳(メタデータ) (2020-10-02T20:44:46Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。