論文の概要: PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos
- arxiv url: http://arxiv.org/abs/2407.09503v1
- Date: Fri, 14 Jun 2024 09:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:38:25.555304
- Title: PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos
- Title(参考訳): PARSE-Ego4D:エゴセントリックビデオのためのパーソナライズ・アクション・レコメンデーション
- Authors: Steven Abreu, Tiffany D. Do, Karan Ahuja, Eric J. Gonzalez, Lee Payne, Daniel McDuff, Mar Gonzalez-Franco,
- Abstract要約: Ego4Dデータセット用の新しいアクションレコメンデーションアノテーションであるPARSE-Ego4Dをリリースする。
我々は、文脈対応アクション提案を生成するために、プロンプトエンジニアリングされた大言語モデル(LLM)を使用する。
我々は、PARSE-Ego4Dのすべての人の嗜好を基礎づける大規模な人間のアノテーション研究を行っている。
- 参考スコア(独自算出の注目度): 24.178858071445237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent assistance involves not only understanding but also action. Existing ego-centric video datasets contain rich annotations of the videos, but not of actions that an intelligent assistant could perform in the moment. To address this gap, we release PARSE-Ego4D, a new set of personal action recommendation annotations for the Ego4D dataset. We take a multi-stage approach to generating and evaluating these annotations. First, we used a prompt-engineered large language model (LLM) to generate context-aware action suggestions and identified over 18,000 action suggestions. While these synthetic action suggestions are valuable, the inherent limitations of LLMs necessitate human evaluation. To ensure high-quality and user-centered recommendations, we conducted a large-scale human annotation study that provides grounding in human preferences for all of PARSE-Ego4D. We analyze the inter-rater agreement and evaluate subjective preferences of participants. Based on our synthetic dataset and complete human annotations, we propose several new tasks for action suggestions based on ego-centric videos. We encourage novel solutions that improve latency and energy requirements. The annotations in PARSE-Ego4D will support researchers and developers who are working on building action recommendation systems for augmented and virtual reality systems.
- Abstract(参考訳): 知的援助は理解だけでなく行動も含む。
既存のエゴ中心のビデオデータセットには、ビデオの豊富なアノテーションが含まれているが、現時点ではインテリジェントアシスタントが実行可能なアクションは含まれていない。
このギャップに対処するため、私たちは、Ego4Dデータセット用の新しい個人的なアクションレコメンデーションアノテーションであるPARSE-Ego4Dをリリースします。
これらのアノテーションの生成と評価には,多段階的なアプローチを採用しています。
まず、プロンプトエンジニアリングされた大規模言語モデル(LLM)を用いて、コンテキスト認識されたアクション提案を生成し、18,000以上のアクション提案を特定した。
これらの合成作用提案は有用であるが、LLMの本質的な制限は人間の評価を必要とする。
高品質でユーザ中心のレコメンデーションを確保するため, PARSE-Ego4Dの全嗜好の基盤となる大規模な人文アノテーション研究を行った。
我々は,レイター間の合意を分析し,参加者の主観的嗜好を評価する。
合成データセットと完全な人間のアノテーションに基づいて、エゴ中心のビデオに基づくアクション提案のための新しいタスクをいくつか提案する。
レイテンシとエネルギー要求を改善する新しいソリューションを推奨します。
PARSE-Ego4Dのアノテーションは、拡張現実および仮想現実システムのためのアクションレコメンデーションシステムの構築に取り組んでいる研究者や開発者をサポートする。
関連論文リスト
- Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - A Large Language Model Enhanced Sequential Recommender for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大規模言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の4.13%が大幅に向上した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
論文 参考訳(メタデータ) (2023-12-06T10:01:43Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - PLAR: Prompt Learning for Action Recognition [56.57236976757388]
我々は,行動認識のためのプロンプト学習(PLAR)という新しい一般学習手法を提案する。
提案手法は,モデルが入力ビデオのアクションに関連する記述や指示に焦点を合わせることで,アクションラベルを予測できるように設計されている。
我々は,空中マルチエージェントデータセットOkutamamの3.110-7.2%の精度向上と地上カメラ単一エージェントデータセットSomesome V2の1.0-3.6%の改善を観察した。
論文 参考訳(メタデータ) (2023-05-21T11:51:09Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - AEI: Actors-Environment Interaction with Adaptive Attention for Temporal
Action Proposals Generation [15.360689782405057]
本研究では,時間的行動提案生成のための映像表現を改善するために,アクタ環境インタラクション(AEI)ネットワークを提案する。
AEIは2つのモジュール、すなわち知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)を含んでいる。
論文 参考訳(メタデータ) (2021-10-21T20:43:42Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。