論文の概要: A Language-based solution to enable Metaverse Retrieval
- arxiv url: http://arxiv.org/abs/2312.14630v1
- Date: Fri, 22 Dec 2023 12:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 15:18:27.947957
- Title: A Language-based solution to enable Metaverse Retrieval
- Title(参考訳): メタバース検索を可能にする言語ベースのソリューション
- Authors: Ali Abdari, Alex Falcon, Giuseppe Serra
- Abstract要約: 本稿では,これらの側面をモデル化することを目的とした,テキスト・ツー・メタバース検索という新しいタスクを提案する。
また,マルチメディアコンテンツに富んだ3Dシーンで構成された33000個のメタバースのデータセットも収集する。
- 参考スコア(独自算出の注目度): 4.330065443215895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the Metaverse is becoming increasingly attractive, with millions of
users accessing the many available virtual worlds. However, how do users find
the one Metaverse which best fits their current interests? So far, the search
process is mostly done by word of mouth, or by advertisement on
technology-oriented websites. However, the lack of search engines similar to
those available for other multimedia formats (e.g., YouTube for videos) is
showing its limitations, since it is often cumbersome to find a Metaverse based
on some specific interests using the available methods, while also making it
difficult to discover user-created ones which lack strong advertisement. To
address this limitation, we propose to use language to naturally describe the
desired contents of the Metaverse a user wishes to find. Second, we highlight
that, differently from more conventional 3D scenes, Metaverse scenarios
represent a more complex data format since they often contain one or more types
of multimedia which influence the relevance of the scenario itself to a user
query. Therefore, in this work, we create a novel task, called
Text-to-Metaverse retrieval, which aims at modeling these aspects while also
taking the cross-modal relations with the textual data into account. Since we
are the first ones to tackle this problem, we also collect a dataset of 33000
Metaverses, each of which consists of a 3D scene enriched with multimedia
content. Finally, we design and implement a deep learning framework based on
contrastive learning, resulting in a thorough experimental setup.
- Abstract(参考訳): 最近、Metaverseはますます魅力的になり、数百万のユーザーが利用可能なバーチャルワールドにアクセスしている。
しかし、ユーザが現在の関心に最も合うMetaverseを見つけるには、どうすればよいのか?
これまでのところ、検索のプロセスは主に口コミか、あるいはテクノロジー指向のウェブサイトの広告によって行われている。
しかし、他のマルチメディアフォーマット(例えばビデオ用youtube)で利用可能な検索エンジンの欠如は、その限界を示している。
この制限に対処するため,我々はユーザが求めるメタバースの所望の内容を自然に記述する言語を提案する。
第2に,従来の3Dシーンとは違って,Metaverseのシナリオは,シナリオ自体のユーザクエリとの関連性に影響を与える,複数のタイプのマルチメディアを含むことが多いため,より複雑なデータフォーマットを表現する。
そこで本研究では,テキストデータとのクロスモーダル関係を考慮しつつ,これらの側面をモデル化することを目的とした,テキスト対メタバース検索と呼ばれる新しいタスクを作成する。
我々は,この問題に最初に取り組む人物であるため,マルチメディアコンテンツに富んだ3Dシーンで構成された33000のメタバースのデータセットも収集する。
最後に、コントラスト学習に基づくディープラーニングフレームワークの設計と実装を行い、徹底的な実験的なセットアップを実現する。
関連論文リスト
- Inevitable-Metaverse: A Novel Twitter Dataset for Public Sentiments on
Metaverse [2.867517731896504]
本研究は,ソーシャルメディア上でのメタバースに関する世論の感情を調査することを目的とする。
86565件のメタバース関連ツイートが辞書ベースの感情分析に使用された。
BERTトランスモデルは、92.6%の精度と0.91のF測定値で感情カテゴリーを予測するのに最適であることが示されている。
論文 参考訳(メタデータ) (2024-03-02T05:15:38Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Metaverse: A Vision, Architectural Elements, and Future Directions for
Scalable and Realtime Virtual Worlds [24.381786472997355]
Metaverseはバーチャルリアリティーと拡張現実を使って物理的な世界を拡張する見込みがある。
ソーシャルメディアとの対話、仕事のコラボレーション、マーケティングとビジネスの実行、教育、学習、さらにはパーソナライズされたヘルスケアへのアクセスなど、人々に影響を及ぼす可能性がある。
本稿ではメタバース定義の時間的進化について述べる。
論文 参考訳(メタデータ) (2023-08-21T08:23:10Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - Privacy Computing Meets Metaverse: Necessity, Taxonomy and Challenges [29.22630037716171]
我々は、プライバシーコンピューティングがメタバースに合うときの必要性、分類、課題について包括的な研究を行う。
まず、メタバースの基盤技術と様々な応用を紹介し、メタバースにおけるデータ利用の課題を分析する。
次に、メタバースにおける異なるプライバシー問題に対する学習、差分プライバシー、同型暗号化、ゼロ知識に基づく最先端のソリューションをレビューし、要約する。
論文 参考訳(メタデータ) (2023-04-23T13:05:58Z) - Virtual Reality in Metaverse over Wireless Networks with User-centered
Deep Reinforcement Learning [8.513938423514636]
無線通信シナリオ上でのマルチユーザVR計算のオフロードについて紹介する。
さらに, ユーザ中心の深層強化学習手法を考案し, ほぼ最適解を求める。
論文 参考訳(メタデータ) (2023-03-08T03:10:41Z) - Big Data Meets Metaverse: A Survey [58.83882109159864]
Metaverseは、未来の新興技術だ。
ビッグデータ、AI(人工知能)、VR(Virtual Reality)、AR(Augmented Reality)、MR(mixed Reality)を組み合わせたものだ。
論文 参考訳(メタデータ) (2022-10-28T17:22:20Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - A Full Dive into Realizing the Edge-enabled Metaverse: Visions, Enabling
Technologies,and Challenges [93.06849621984684]
モバイルインターネットの後継である「メタバース」の人気が高まっている。
メタバースの礼儀正しいバージョンは現存しているが、没入的で具現化され、相互運用可能なメタバースの完全なビジョンを実現するには程遠い。
通信やネットワークによる実装の問題に対処しない限り、Metaverseはインターネットを継承することは困難である。
本稿では、リソース制約のあるエッジデバイス上でのメタバースを実現するために、計算課題とクラウド・エッジ・コンピューティング・フレームワーク駆動のソリューションについて議論する。
論文 参考訳(メタデータ) (2022-03-10T16:48:51Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。