Fugu-MT 論文翻訳(概要): Intention-Conditioned Long-Term Human Egocentric Action Forecasting

論文の概要: Intention-Conditioned Long-Term Human Egocentric Action Forecasting

arxiv url: http://arxiv.org/abs/2207.12080v4
Date: Mon, 8 Apr 2024 15:50:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 05:56:30.387828
Title: Intention-Conditioned Long-Term Human Egocentric Action Forecasting
Title（参考訳）: 意図に基づく長期的人間中心行動予測
Authors: Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee,
Abstract要約: 我々は、エゴセントリックビデオにおける長期的な行動予測タスクに対処する。人間の意図を高レベルな情報として活用することで、我々のモデルは長期的により時間的な行動を予測することができると主張している。この作品はCVPR@2022とECVV@2022 EGO4D LTA Challengeにランクインした。
参考スコア（独自算出の注目度）: 14.347147051922175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To anticipate how a human would act in the future, it is essential to understand the human intention since it guides the human towards a certain goal. In this paper, we propose a hierarchical architecture which assumes a sequence of human action (low-level) can be driven from the human intention (high-level). Based on this, we deal with Long-Term Action Anticipation task in egocentric videos. Our framework first extracts two level of human information over the N observed videos human actions through a Hierarchical Multi-task MLP Mixer (H3M). Then, we condition the uncertainty of the future through an Intention-Conditioned Variational Auto-Encoder (I-CVAE) that generates K stable predictions of the next Z=20 actions that the observed human might perform. By leveraging human intention as high-level information, we claim that our model is able to anticipate more time-consistent actions in the long-term, thus improving the results over baseline methods in EGO4D Challenge. This work ranked first in both CVPR@2022 and ECVV@2022 EGO4D LTA Challenge by providing more plausible anticipated sequences, improving the anticipation of nouns and overall actions. Webpage: https://evm7.github.io/icvae-page/
Abstract（参考訳）: 人間が将来どのように振る舞うかを予測するためには、人間をある目標に向けて導くため、人間の意図を理解することが不可欠である。本稿では,人間の意図(ハイレベル)から人間行動(低レベル)のシーケンスを駆動できると仮定した階層型アーキテクチャを提案する。これに基づいて、エゴセントリックビデオにおける長期行動予測タスクを取り扱う。我々のフレームワークはまず,階層型マルチタスクMLPミキサー(H3M)を用いて,Nの観察ビデオ上の2つのレベルの人的情報を抽出する。そこで,本研究では,次のZ=20動作のK安定予測を生成する意図条件付き変分自動エンコーダ(I-CVAE)を用いて,未来の不確実性を条件とした。人間の意図を高レベルの情報として活用することにより、我々のモデルは長期にわたるより時間的な行動を予測することができ、EGO4D Challengeにおける基準手法よりも結果を改善することができると我々は主張する。この研究はCVPR@2022とECVV@2022 EGO4D LTA Challengeの両方で、より実証可能な予測シーケンスを提供し、名詞や全体的な行動の予測を改善した。 Webページ: https://evm7.github.io/icvae-page/

関連論文リスト

EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文参考訳（メタデータ） (2025-07-16T17:27:44Z)
An Epistemic Human-Aware Task Planner which Anticipates Human Beliefs and Decisions [8.309981857034902]
目的は、制御不能な人間の行動を説明するロボットポリシーを構築することである。提案手法は,AND-OR探索に基づく新しい計画手法と解法の構築である。 2つの領域における予備的な実験は、1つの新しいものと1つの適応されたもので、フレームワークの有効性を実証している。
論文参考訳（メタデータ） (2024-09-27T08:27:36Z)
CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文参考訳（メタデータ） (2024-06-04T15:44:25Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-10-13T07:03:39Z)
Staged Contact-Aware Global Human Motion Forecasting [7.930326095134298]
バーチャルリアリティー、ロボティクス、スポーツなどの多様体応用には、シーン認識のグローバルな人間の動き予測が不可欠である。本稿では,3次元環境下でのグローバルな人間の動きを予測するための新しい3段階パイプラインSTAGを提案する。 STAGは、シーン認識のGTA-IMデータセット上で、ポーズと軌道予測の全体的な1.8%と16.2%の改善を達成する。
論文参考訳（メタデータ） (2023-09-16T10:47:48Z)
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? [28.912026171231528]
長期的行動予測(LTA)タスクは、動詞と名詞のシーケンスの形式でビデオ観察から俳優の将来の行動を予測することを目的としている。本稿では,2つの視点からLTAタスクを定式化することを提案する。次の動作を時間的ダイナミクスをモデル化して自己回帰的に予測するボトムアップアプローチと,俳優の目標を推測し,目標を達成するために必要な手順を計画するトップダウンアプローチである。本稿では,2段階のフレームワークAntGPTを提案する。このフレームワークは,観測ビデオですでに実行されている動作を最初に認識し,条件付き生成により将来の動作を予測する。
論文参考訳（メタデータ） (2023-07-31T02:14:19Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。私たちのデータ収集は特定のシーンに縛られません。視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-04-20T13:17:39Z)
Generating Active Explicable Plans in Human-Robot Teaming [4.657875410615595]
ロボットは人間の期待に応えて明示的に振る舞うことが重要である。説明可能な計画を生成するための既存のアプローチは、しばしば人間の期待が知られ、静的であると仮定する。ベイズ的アプローチを用いて、人間の動的な信念と期待をモデル化し、予測し、説明可能な計画をさらに予測する。
論文参考訳（メタデータ） (2021-09-18T05:05:50Z)
Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2021-07-14T09:05:33Z)
3D Human motion anticipation and classification [8.069283749930594]
人間の動き予測と特徴学習のための新しいシーケンス・トゥ・シークエンスモデルを提案する。我々のモデルは、同じ入力シーケンスから複数の人間のポーズの将来のシーケンスを予測することを学習する。識別器から学習した特徴を用いて,行動認識ネットワークを訓練するには,エポック数の半分以下しかかからないことを示す。
論文参考訳（メタデータ） (2020-12-31T00:19:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。