論文の概要: TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for
People with Visual Impairments
- arxiv url: http://arxiv.org/abs/2308.01035v1
- Date: Wed, 2 Aug 2023 09:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:30:03.957453
- Title: TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for
People with Visual Impairments
- Title(参考訳): TS-RGBDデータセット:視覚障害者のための演劇シーン記述のための新しいデータセット
- Authors: Leyla Benhamida and Khadidja Delloul and Slimane Larabi
- Abstract要約: そこで本研究では,舞台シーンを具現化したRGB-Dデータセットを提案する。
RGB、ディープ、スケルトンシーケンスという3種類のデータが含まれており、Microsoft Kinectによってキャプチャされる。
我々は、データセット上の画像キャプションモデルと、骨格に基づく人間の行動認識モデルをテストする。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computer vision was long a tool used for aiding visually impaired people to
move around their environment and avoid obstacles and falls. Solutions are
limited to either indoor or outdoor scenes, which limits the kind of places and
scenes visually disabled people can be in, including entertainment places such
as theatres. Furthermore, most of the proposed computer-vision-based methods
rely on RGB benchmarks to train their models resulting in a limited performance
due to the absence of the depth modality.
In this paper, we propose a novel RGB-D dataset containing theatre scenes
with ground truth human actions and dense captions annotations for image
captioning and human action recognition: TS-RGBD dataset. It includes three
types of data: RGB, depth, and skeleton sequences, captured by Microsoft
Kinect.
We test image captioning models on our dataset as well as some skeleton-based
human action recognition models in order to extend the range of environment
types where a visually disabled person can be, by detecting human actions and
textually describing appearances of regions of interest in theatre scenes.
- Abstract(参考訳): コンピュータビジョンは長い間、視覚障害者が自分の環境を動き回り、障害物や転倒を避けるためのツールだった。
ソリューションは屋内または屋外のシーンに限られており、劇場などの娯楽施設を含む視覚障害者が参加できる場所やシーンの種類を制限している。
さらに,提案手法の多くはrgbベンチマークを用いてモデルのトレーニングを行い,奥行きモダリティの欠如により性能が制限された。
本稿では,映像キャプションとヒューマンアクション認識のための高密なキャプションアノテーションを含む演劇シーンを含む新しいrgb-dデータセットであるts-rgbdデータセットを提案する。
RGB、ディープ、スケルトンシーケンスという3種類のデータが含まれており、Microsoft Kinectによってキャプチャされる。
映像キャプションモデルと骨格に基づく人間の行動認識モデルを用いて,視覚障害者が扱える環境の種類の範囲を拡大し,劇場シーンにおける関心領域の出現をテキストで記述することにより,画像キャプションモデルをテストする。
関連論文リスト
- 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - Towards Real Time Egocentric Segment Captioning for The Blind and
Visually Impaired in RGB-D Theatre Images [0.6345523830122166]
本稿では,視覚障害者が画像キャプションを用いて周囲を理解できるようにするアプローチを提案する。
本研究の特長は,地域の位置や対象,地域間の位置関係を記述できることである。
TS-RGBDデータセットにこのソリューションを適用することで、劇場演劇へのアクセスを目標としています。
論文 参考訳(メタデータ) (2023-08-26T14:27:10Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。