論文の概要: Semantically Guided Representation Learning For Action Anticipation
- arxiv url: http://arxiv.org/abs/2407.02309v1
- Date: Tue, 2 Jul 2024 14:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:06:12.765345
- Title: Semantically Guided Representation Learning For Action Anticipation
- Title(参考訳): 行動予測のための意味的指導型表現学習
- Authors: Anxhelo Diko, Danilo Avola, Bardh Prenkaj, Federico Fontana, Luigi Cinque,
- Abstract要約: 本稿では,S-GEAR(Semantically Guided Representation Learning)フレームワークを提案する。
S-GEARは視覚行動のプロトタイプを学び、言語モデルを利用して関係を構造化し、意味を誘導する。
我々は,S-GEARが言語から視覚プロトタイプへ行動間の幾何学的関連を効果的に伝達することを示した。
- 参考スコア(独自算出の注目度): 9.836788915947924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action anticipation is the task of forecasting future activity from a partially observed sequence of events. However, this task is exposed to intrinsic future uncertainty and the difficulty of reasoning upon interconnected actions. Unlike previous works that focus on extrapolating better visual and temporal information, we concentrate on learning action representations that are aware of their semantic interconnectivity based on prototypical action patterns and contextual co-occurrences. To this end, we propose the novel Semantically Guided Representation Learning (S-GEAR) framework. S-GEAR learns visual action prototypes and leverages language models to structure their relationship, inducing semanticity. To gather insights on S-GEAR's effectiveness, we test it on four action anticipation benchmarks, obtaining improved results compared to previous works: +3.5, +2.7, and +3.5 absolute points on Top-1 Accuracy on Epic-Kitchen 55, EGTEA Gaze+ and 50 Salads, respectively, and +0.8 on Top-5 Recall on Epic-Kitchens 100. We further observe that S-GEAR effectively transfers the geometric associations between actions from language to visual prototypes. Finally, S-GEAR opens new research frontiers in anticipation tasks by demonstrating the intricate impact of action semantic interconnectivity.
- Abstract(参考訳): 行動予測は、部分的に観察された事象の連続から将来の活動を予測するタスクである。
しかし,本課題は本質的な将来不確実性や相互接続行動による推論の難しさに晒されている。
より優れた視覚的・時間的情報に焦点をあてる以前の研究とは異なり、私たちは、原型的行動パターンと文脈的共起に基づく意味的相互関係性を認識する行動表現の学習に重点を置いている。
そこで本研究では,S-GEAR(Semantically Guided Representation Learning)フレームワークを提案する。
S-GEARは視覚行動のプロトタイプを学び、言語モデルを利用して関係を構造化し、意味を誘導する。
S-GEARの有効性についての知見を得るため,S-GEARの有効性を4つのアクション予測ベンチマークで検証し,以前の研究と比較すると,+3.5,+2.7,+3.5絶対点がEpic-Kitchen 55,EGTEA Gaze+,50 Saladsで,+0.8はEpic-Kitchens 100で,+0.8はTop-5 Recallで,+3.5はEpic-Kitchens 100でそれぞれ,+3.5,+2.7,+3.5絶対点が得られた。
さらに、S-GEARは、アクション間の幾何学的関連を言語から視覚的プロトタイプへ効果的に転送する。
最後に、S-GEARは、アクションセマンティックコネクティビティの複雑な影響を実証することにより、予測タスクにおける新たな研究フロンティアを開放する。
関連論文リスト
- ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation [66.8640112000444]
時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための一般的なビジョンタスクである。
本稿では,アクトフュージョンと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
我々は,映像フレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク戦略を導入する。
論文 参考訳(メタデータ) (2024-12-05T17:12:35Z) - From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Android in the Zoo: Chain-of-Action-Thought for GUI Agents [38.07337874116759]
この研究は、前回のアクション、現在のスクリーン、さらに重要なことは、どのアクションを実行するべきか、選択されたアクションによって導かれる結果について、アクション思考を記述する、Chain-of-Action-Thought (dubed CoAT)を提示する。
我々は,3つの既成LMMのゼロショット設定において,CoATは従来のコンテキストモデルと比較して,動作予測を大幅に改善することを示した。
このラインでの研究をさらに促進するために,AitZ(Android-In-The-Zoo)という,18,643のスクリーンアクションペアとチェーン・オブ・アクションを組み合わせたデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-05T07:09:35Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Inferring Past Human Actions in Homes with Abductive Reasoning [19.950479031985502]
帰納的過去の行動推論」は、家庭内個人による過去の行動を特定することを目的とした新しい研究課題である。
帰納的過去の行動推論に適したモデルをいくつか紹介する。
本研究の貢献により, 深層学習モデルによる現場証拠の推論能力が著しく向上した。
論文 参考訳(メタデータ) (2022-10-24T07:43:59Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z) - Forecasting Action through Contact Representations from First Person
Video [7.10140895422075]
接触を中心とした表現とモデルを導入し,そのモデルを用いて行動予測と予測を行う。
これらのアノテーションを使用して、期待される近い将来のアクションの新たな低レベル表現を生成するモジュールをトレーニングします。
予測モジュールの上に、アクション予測と予測のためのフレームワークであるEgo-OMGを適用します。
論文 参考訳(メタデータ) (2021-02-01T05:52:57Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Knowledge Distillation for Action Anticipation via Label Smoothing [21.457069042129138]
視覚的観察や非言語的手がかりから未来を予測できる人間の能力は、インテリジェントなシステムを開発する上で不可欠である。
我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。
実験により,ラベルの平滑化は動作予測のための最先端モデルの性能を体系的に向上することが示された。
論文 参考訳(メタデータ) (2020-04-16T15:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。