論文の概要: A Probabilistic Jump-Diffusion Framework for Open-World Egocentric Activity Recognition
- arxiv url: http://arxiv.org/abs/2505.22858v1
- Date: Wed, 28 May 2025 20:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.5346
- Title: A Probabilistic Jump-Diffusion Framework for Open-World Egocentric Activity Recognition
- Title(参考訳): オープンワールド・エゴセントリックな活動認識のための確率的ジャンプ拡散フレームワーク
- Authors: Sanjoy Kundu, Shanmukha Vellamcheti, Sathyanarayanan N. Aakur,
- Abstract要約: 本稿では,ジャンプ拡散に基づく確率的残留探索フレームワークProbResを紹介する。
提案手法は,意味的コヒーレントな検索空間を構築するために,構造化コモンセンスを前もって統合する。
複数のオープンネスレベル(L0-L3)にわたってProbResを体系的に評価し,検索空間の複雑さの増加に対する適応性を示した。
- 参考スコア(独自算出の注目度): 6.253919624802853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-world egocentric activity recognition poses a fundamental challenge due to its unconstrained nature, requiring models to infer unseen activities from an expansive, partially observed search space. We introduce ProbRes, a Probabilistic Residual search framework based on jump-diffusion that efficiently navigates this space by balancing prior-guided exploration with likelihood-driven exploitation. Our approach integrates structured commonsense priors to construct a semantically coherent search space, adaptively refines predictions using Vision-Language Models (VLMs) and employs a stochastic search mechanism to locate high-likelihood activity labels while minimizing exhaustive enumeration efficiently. We systematically evaluate ProbRes across multiple openness levels (L0--L3), demonstrating its adaptability to increasing search space complexity. In addition to achieving state-of-the-art performance on benchmark datasets (GTEA Gaze, GTEA Gaze+, EPIC-Kitchens, and Charades-Ego), we establish a clear taxonomy for open-world recognition, delineating the challenges and methodological advancements necessary for egocentric activity understanding.
- Abstract(参考訳): オープンワールドのエゴセントリックな活動認識は、その制約のない性質のために根本的な課題となり、拡大した部分的に観察された探索空間から見えない活動を予測するモデルを必要とする。
本稿では,ジャンプ拡散に基づく確率的残留探索フレームワークProbResを紹介する。
提案手法は,意味的コヒーレントな探索空間を構築するために構造化されたコモンセンスを統合し,視覚言語モデル(VLM)を用いた予測を適応的に洗練し,高次活動ラベルの探索に確率的探索機構を用い,効率よく全列挙を最小化する。
複数の開度レベル(L0-L3)にわたってProbResを体系的に評価し,検索空間の複雑さの増加に対する適応性を示した。
ベンチマークデータセット(GTEA Gaze, GTEA Gaze+, EPIC-Kitchens, Charades-Ego)の最先端性能を達成することに加えて、オープンワールド認識のための明確な分類法を確立し、エゴセントリックな活動理解に必要な課題と方法論の進歩について述べる。
関連論文リスト
- ProbRes: Probabilistic Jump Diffusion for Open-World Egocentric Activity Recognition [6.253919624802853]
本稿では,ジャンプ拡散に基づく確率的残留探索フレームワークProbResを紹介する。
複数の開度レベル(L0 - L3)にわたってProbResを体系的に評価し,検索空間の複雑さの増加に対する適応性を示した。
その結果,構造化された検索戦略の重要性が強調され,スケーラブルで効率的なオープンワールド活動認識への道が開かれた。
論文 参考訳(メタデータ) (2025-04-04T21:30:45Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Posets and Bounded Probabilities for Discovering Order-inducing Features in Event Knowledge Graphs [6.96958458974878]
イベント知識グラフ(EKG)は、プロセス実行の複数の対話的なビューをキャプチャする。
未処理データからのEKG発見のオープンな問題に対処する。
統計的推測に基づくEKG探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-10-08T14:12:51Z) - ALGO: Object-Grounded Visual Commonsense Reasoning for Open-World Egocentric Action Recognition [6.253919624802853]
本研究では, ALGO-Action Learning with Grounded Object Recognitionを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2024-06-09T10:30:04Z) - Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning [6.253919624802853]
本稿では,自己中心型ビデオにおける活動を限定的に推測する,ALGOと呼ばれる2段階のニューロシンボリック・フレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第二に、事前のコモンセンス知識により、エネルギーに基づく象徴的パターン理論の枠組みを通して、プラプシブルな活動を発見する。
論文 参考訳(メタデータ) (2023-05-26T03:21:30Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Objective discovery of dominant dynamical processes with intelligible
machine learning [0.0]
本稿では,動的状態の同定を最適化問題として定式化する形式的定義を提案する。
本稿では,事前知識やアドホックな定義の必要性を排除した教師なし学習フレームワークを提案する。
我々の手法は、動的システム内でセレンディピティーな発見を可能にする、偏りのないデータ探索への一歩である。
論文 参考訳(メタデータ) (2021-06-21T20:57:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。