Fugu-MT 論文翻訳(概要): 360+x: A Panoptic Multi-modal Scene Understanding Dataset

論文の概要: 360+x: A Panoptic Multi-modal Scene Understanding Dataset

arxiv url: http://arxiv.org/abs/2404.00989v2
Date: Mon, 8 Apr 2024 02:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 00:06:38.798817
Title: 360+x: A Panoptic Multi-modal Scene Understanding Dataset
Title（参考訳）: 360+x:Panoptic Multi-modal Scene Understanding Dataset
Authors: Hao Chen, Yuqi Hou, Chenyuan Qu, Irene Testini, Xiaohan Hong, Jianbo Jiao,
Abstract要約: 360+xは、複数の視点を複数のデータモダリティでカバーする最初のデータベースである。私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。
参考スコア（独自算出の注目度）: 13.823967656097146
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human perception of the world is shaped by a multitude of viewpoints and modalities. While many existing datasets focus on scene understanding from a certain perspective (e.g. egocentric or third-person views), our dataset offers a panoptic perspective (i.e. multiple viewpoints with multiple data modalities). Specifically, we encapsulate third-person panoramic and front views, as well as egocentric monocular/binocular views with rich modalities including video, multi-channel audio, directional binaural delay, location data and textual scene descriptions within each scene captured, presenting comprehensive observation of the world. Figure 1 offers a glimpse of all 28 scene categories of our 360+x dataset. To the best of our knowledge, this is the first database that covers multiple viewpoints with multiple data modalities to mimic how daily information is accessed in the real world. Through our benchmark analysis, we presented 5 different scene understanding tasks on the proposed 360+x dataset to evaluate the impact and benefit of each data modality and perspective in panoptic scene understanding. We hope this unique dataset could broaden the scope of comprehensive scene understanding and encourage the community to approach these problems from more diverse perspectives.
Abstract（参考訳）: 世界の人間の知覚は、様々な視点とモダリティによって形作られています。既存のデータセットの多くは、ある視点からのシーン理解(例えば、自我中心または第三者の視点)に焦点を当てていますが、私たちのデータセットは、パノスコープ(つまり、複数のデータモダリティを持つ複数の視点)を提供しています。具体的には,映像,多チャンネル音声,指向性バイノーラル遅延,位置データ,テキストシーン記述などの多彩なモダリティを備えた立体パノラマ・フロントビュー,およびエゴセントリックな単眼/双眼ビューをカプセル化し,世界全体を包括的に観察する。図1は、私たちの360+xデータセットの28のシーンカテゴリを垣間見せています。私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。ベンチマーク分析を通じて,提案した360+xデータセットに5つの異なるシーン理解タスクを提示し,各データモダリティと視点の影響と有用性を評価する。このユニークなデータセットが、総合的なシーン理解の範囲を広げ、より多様な視点からこれらの問題にアプローチするようコミュニティに促すことを願っています。

関連論文リスト

From an Image to a Scene: Learning to Imagine the World from a Million 360 Videos [71.22810401256234]
オブジェクトやシーンの3次元理解は、人間が世界と対話する能力において重要な役割を果たす。大規模合成およびオブジェクト中心の3Dデータセットは、オブジェクトの3D理解を持つモデルのトレーニングに有効であることが示されている。我々は360-1M、360度ビデオデータセット、およびスケールの多様な視点から対応するフレームを効率的に見つけるプロセスを紹介した。
論文参考訳（メタデータ） (2024-12-10T18:59:44Z)
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文参考訳（メタデータ） (2024-11-13T16:31:08Z)
360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文参考訳（メタデータ） (2024-06-27T05:26:38Z)
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera [2.427410108595295]
本稿では,視覚障害者が直面する日常的課題,例えば情報へのアクセス制限,ナビゲーションの困難,社会的相互作用への障壁について論じる。これらの課題を軽減するために、我々は新しい視覚的質問応答データセットを導入する。ビデオは360度エゴセントリックなウェアラブルカメラで撮影され、周囲全体を観察することができる。
論文参考訳（メタデータ） (2024-05-30T08:02:05Z)
Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文参考訳（メタデータ） (2024-03-26T13:54:52Z)
POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-09T09:54:44Z)
EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。 1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文参考訳（メタデータ） (2023-12-26T18:59:11Z)
The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World [71.52132776748628]
オープンな世界のすべてを認識、理解するための大規模データとモデルであるAll-Seeing (AS)プロジェクトを紹介します。我々は10億以上の領域に意味タグ、質問応答ペア、詳細なキャプションを付加した新しいデータセット(AS-1B)を作成します。視覚認識と理解のための統合フレームワークであるAll-Seeing Model (ASM) を開発した。
論文参考訳（メタデータ） (2023-08-03T17:59:47Z)
FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文参考訳（メタデータ） (2023-03-07T02:31:08Z)
Unsupervised Learning of Compositional Scene Representations from Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文参考訳（メタデータ） (2021-12-07T08:45:21Z)
Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文参考訳（メタデータ） (2020-07-14T17:58:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。