論文の概要: QueryMamba: A Mamba-Based Encoder-Decoder Architecture with a Statistical Verb-Noun Interaction Module for Video Action Forecasting @ Ego4D Long-Term Action Anticipation Challenge 2024
- arxiv url: http://arxiv.org/abs/2407.04184v1
- Date: Thu, 4 Jul 2024 23:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:50:59.601648
- Title: QueryMamba: A Mamba-Based Encoder-Decoder Architecture with a Statistical Verb-Noun Interaction Module for Video Action Forecasting @ Ego4D Long-Term Action Anticipation Challenge 2024
- Title(参考訳): QueryMamba: ビデオアクション予測のための統計的Verb-Nounインタラクションモジュールを備えたマンバベースのエンコーダ-デコーダアーキテクチャ
- Authors: Zeyun Zhong, Manuel Martin, Frederik Diederichs, Juergen Beyerer,
- Abstract要約: 本稿では,マンバをベースとした新しいエンコーダデコーダアーキテクチャについて述べる。
このアーキテクチャは、歴史的データに基づいて動詞や名詞の発生を予測するだけでなく、それらの共同発生も予測精度を向上させるために考慮している。
- 参考スコア(独自算出の注目度): 2.0142111243897993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents a novel Mamba-based encoder-decoder architecture, QueryMamba, featuring an integrated verb-noun interaction module that utilizes a statistical verb-noun co-occurrence matrix to enhance video action forecasting. This architecture not only predicts verbs and nouns likely to occur based on historical data but also considers their joint occurrence to improve forecast accuracy. The efficacy of this approach is substantiated by experimental results, with the method achieving second place in the Ego4D LTA challenge and ranking first in noun prediction accuracy.
- Abstract(参考訳): 本稿では,マンバをベースとした新しいエンコーダデコーダアーキテクチャであるQueryMambaについて述べる。
このアーキテクチャは、歴史的データに基づいて動詞や名詞の発生を予測するだけでなく、その共同発生も予測精度の向上のために考慮している。
本手法の有効性は実験結果によって実証され,Ego4D LTAチャレンジでは2位,名詞予測では1位となった。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Decomposing and Editing Predictions by Modeling Model Computation [75.37535202884463]
コンポーネントモデリングというタスクを導入します。
コンポーネントモデリングの目標は、MLモデルの予測をコンポーネントの観点から分解することだ。
コンポーネント属性を推定するスケーラブルなアルゴリズムであるCOARを提案する。
論文 参考訳(メタデータ) (2024-04-17T16:28:08Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Modular Action Concept Grounding in Semantic Video Prediction [28.917125574895422]
本稿では,セマンティックアクションラベルを用いてインタラクションを記述するセマンティックアクション条件付きビデオ予測のタスクを紹介する。
様々な視覚的概念学習者の構造的組み合わせによって,各抽象ラベルを具現化する。
提案手法は,新たに設計された2つの合成データセットと1つの実世界のデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-23T04:12:22Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z) - Toward Interpretability of Dual-Encoder Models for Dialogue Response
Suggestions [18.117115200484708]
本稿では、2つのエンコーダから抽出した単語レベルの特徴の上位にアテンション機構を含む注意型二重エンコーダモデルを提案する。
我々は、重要でない単語と望ましいラベルの相互情報を最小化するために、新しい正規化損失を設計する。
実験では、Recall@1の精度と可視性の観点から、提案モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-03-02T21:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。