論文の概要: Towards Real Time Egocentric Segment Captioning for The Blind and
Visually Impaired in RGB-D Theatre Images
- arxiv url: http://arxiv.org/abs/2308.13892v1
- Date: Sat, 26 Aug 2023 14:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:16:09.288003
- Title: Towards Real Time Egocentric Segment Captioning for The Blind and
Visually Impaired in RGB-D Theatre Images
- Title(参考訳): RGB-Dシアター画像におけるブラインドと視覚障害に対するリアルタイムエゴセントリックセグメンテーション
- Authors: Khadidja Delloul, Slimane Larabi
- Abstract要約: 本稿では,視覚障害者が画像キャプションを用いて周囲を理解できるようにするアプローチを提案する。
本研究の特長は,地域の位置や対象,地域間の位置関係を記述できることである。
TS-RGBDデータセットにこのソリューションを適用することで、劇場演劇へのアクセスを目標としています。
- 参考スコア(独自算出の注目度): 0.6345523830122166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, image captioning and segmentation have emerged as crucial
tasks in computer vision, with applications ranging from autonomous driving to
content analysis. Although multiple solutions have emerged to help blind and
visually impaired people move around their environment, few are applications
that help them understand and rebuild a scene in their minds through text. Most
built models focus on helping users move and avoid obstacles, restricting the
number of environments blind and visually impaired people can be in.
In this paper, we will propose an approach that helps them understand their
surroundings using image captioning. The particularity of our research is that
we offer them descriptions with positions of regions and objects regarding them
(left, right, front), as well as positional relationships between regions,
while we aim to give them access to theatre plays by applying the solution to
our TS-RGBD dataset.
- Abstract(参考訳): 近年、画像キャプションやセグメンテーションがコンピュータビジョンの重要なタスクとして登場し、自動運転からコンテンツ分析まで応用されている。
視覚障害者が自分の環境を動き回るのを助けるために、複数のソリューションが登場したが、テキストを通じて心の中のシーンを理解して再構築するアプリケーションはほとんどない。
構築されたほとんどのモデルは、ユーザが障害を移動したり回避したりすることに集中しており、視覚障害者のいる環境の数を制限する。
本稿では,画像キャプションを用いた環境理解を支援する手法を提案する。
本研究の特長は, ts-rgbdデータセットに解法を適用し, 演劇作品へのアクセスを目的としながら, それらに関する領域や対象の位置(左, 右, 前方), および地域間の位置関係について記述することである。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for
People with Visual Impairments [1.2891210250935146]
そこで本研究では,舞台シーンを具現化したRGB-Dデータセットを提案する。
RGB、ディープ、スケルトンシーケンスという3種類のデータが含まれており、Microsoft Kinectによってキャプチャされる。
我々は、データセット上の画像キャプションモデルと、骨格に基づく人間の行動認識モデルをテストする。
論文 参考訳(メタデータ) (2023-08-02T09:28:35Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z) - Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations [65.37621891132729]
本研究では,自然会話における参加者のエゴセントリックな音声・視覚的観察において,共有情報を活用することで,これまで見つからなかった3D環境の地図を構築する。
共有シーンマッパーと協調して、カメラを選択的にオンにして空間を効率よくチャートアウトする、オーディオ-視覚深層強化学習手法を提案する。
我々のモデルは従来の最先端マッピング手法よりも優れており、優れたコスト-精度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-01-04T18:47:32Z) - Describing image focused in cognitive and visual details for visually
impaired people: An approach to generating inclusive paragraphs [2.362412515574206]
ウェブナーなど、オンラインコンテンツに表示される画像コンテキストの理解など、特定のタスクをサポートするサービスが不足している。
本稿では,高密度キャプション手法とフィルタを併用したウェビナー画像のコンテキスト生成手法を提案し,ドメイン内のキャプションに適合する手法と抽象要約タスクのための言語モデルを提案する。
論文 参考訳(メタデータ) (2022-02-10T21:20:53Z) - Panoptic Segmentation: A Review [2.270719568619559]
本稿では,既存の汎視的セグメンテーション手法の包括的レビューを行う。
パノプティクスのセグメンテーションは現在、ビデオ監視、群衆のカウント、自動運転、医療画像分析などの画像シーンに関する、より精巧な知識を得るために研究中である。
論文 参考訳(メタデータ) (2021-11-19T14:40:24Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z) - Cross modal video representations for weakly supervised active speaker
localization [39.67239953795999]
視覚表現を学習するためのクロスモーダルニューラルネットワークを提案する。
映画コンテンツ中のアクティブな話者をローカライズするための弱教師付きシステムを提案する。
また,音声ビジュアル・フレームワークにおける音声活動検出の課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2020-03-09T18:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。