論文の概要: POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World
- arxiv url: http://arxiv.org/abs/2403.05856v1
- Date: Sat, 9 Mar 2024 09:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:01:39.375693
- Title: POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World
- Title(参考訳): POV:多視点世界におけるエゴセントリック・ハンドオブジェクトインタラクションのためのプロンプト指向ビュー非依存学習
- Authors: Boshen Xu, Sipeng Zheng, Qin Jin
- Abstract要約: 人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.545114016224254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We humans are good at translating third-person observations of hand-object
interactions (HOI) into an egocentric view. However, current methods struggle
to replicate this ability of view adaptation from third-person to first-person.
Although some approaches attempt to learn view-agnostic representation from
large-scale video datasets, they ignore the relationships among multiple
third-person views. To this end, we propose a Prompt-Oriented View-agnostic
learning (POV) framework in this paper, which enables this view adaptation with
few egocentric videos. Specifically, We introduce interactive masking prompts
at the frame level to capture fine-grained action information, and view-aware
prompts at the token level to learn view-agnostic representation. To verify our
method, we establish two benchmarks for transferring from multiple third-person
views to the egocentric view. Our extensive experiments on these benchmarks
demonstrate the efficiency and effectiveness of our POV framework and prompt
tuning techniques in terms of view adaptation and view generalization. Our code
is available at \url{https://github.com/xuboshen/pov_acmmm2023}.
- Abstract(参考訳): 人間は、手-物間相互作用(HOI)の第三者による観察をエゴセントリックな視点に翻訳するのが得意です。
しかし、現在の手法は、第三者から個人へ適応する能力の再現に苦慮している。
大規模ビデオデータセットからビュー非依存表現を学習しようとするアプローチもあるが、複数の第三者ビュー間の関係を無視するアプローチもある。
この目的のために,本論文で提案するPmpt-Oriented View-Agnostic Learning (POV) フレームワークを提案する。
具体的には,フレームレベルでのインタラクティブマスキングプロンプトを導入し,細粒度なアクション情報をキャプチャし,トークンレベルでのビュー認識プロンプトを導入し,ビュー非依存表現を学習する。
提案手法を検証するために,複数の第三者視点からエゴセントリック視点へ移動するための2つのベンチマークを構築した。
これらのベンチマークに関する広範な実験は、ビュー適応とビュー一般化の観点から、povフレームワークの効率性と有効性を示します。
私たちのコードは \url{https://github.com/xuboshen/pov_acmmm2023}で利用可能です。
関連論文リスト
- Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities
Using Web Instructional Videos [27.209391862016574]
本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
論文 参考訳(メタデータ) (2023-11-28T02:51:13Z) - Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition [23.031934558964473]
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。
また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-22T15:10:42Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - GOCA: Guided Online Cluster Assignment for Self-Supervised Video
Representation Learning [49.69279760597111]
クラスタリングは教師なし学習におけるユビキタスなツールです。
既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。
具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2022-07-20T19:26:55Z) - Learning Implicit 3D Representations of Dressed Humans from Sparse Views [31.584157304372425]
本論文では,スパースなカメラビューから服姿の人間の暗黙的な3D表現を学習するエンドツーエンドのアプローチを提案する。
実験では, 提案手法が, 定量的・定性的に標準データに対する技術水準を上回っていることを示した。
論文 参考訳(メタデータ) (2021-04-16T10:20:26Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。