論文の概要: In-Home Daily-Life Captioning Using Radio Signals
- arxiv url: http://arxiv.org/abs/2008.10966v1
- Date: Tue, 25 Aug 2020 12:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:01:02.810022
- Title: In-Home Daily-Life Captioning Using Radio Signals
- Title(参考訳): 無線信号を用いた家庭内日常キャプション
- Authors: Lijie Fan, Tianhong Li, Yuan Yuan, Dina Katabi
- Abstract要約: 本稿では,ホームのフロアマップを用いて,プライバシ保護無線信号を解析し,日常生活をキャプションする新しいモデルRF-Diaryを紹介する。
RF-Diaryは、壁や閉塞や暗い環境で人々の生活を観察し、キャプションすることができる。
- 参考スコア(独自算出の注目度): 29.118868792782937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to caption daily life --i.e., to create a textual description
of people's activities and interactions with objects in their homes. Addressing
this problem requires novel methods beyond traditional video captioning, as
most people would have privacy concerns about deploying cameras throughout
their homes. We introduce RF-Diary, a new model for captioning daily life by
analyzing the privacy-preserving radio signal in the home with the home's
floormap. RF-Diary can further observe and caption people's life through walls
and occlusions and in dark settings. In designing RF-Diary, we exploit the
ability of radio signals to capture people's 3D dynamics, and use the floormap
to help the model learn people's interactions with objects. We also use a
multi-modal feature alignment training scheme that leverages existing
video-based captioning datasets to improve the performance of our radio-based
captioning model. Extensive experimental results demonstrate that RF-Diary
generates accurate captions under visible conditions. It also sustains its good
performance in dark or occluded settings, where video-based captioning
approaches fail to generate meaningful captions. For more information, please
visit our project webpage: http://rf-diary.csail.mit.edu
- Abstract(参考訳): 本論文は, 日常生活を字幕化し, 家庭内における活動や物との相互作用をテキストで記述することを目的とする。
この問題に対処するには、従来のビデオキャプション以外の新しい方法が必要になる。
本稿では,ホームのフロアマップを用いて,プライバシ保護無線信号を解析し,日常生活をキャプションする新しいモデルRF-Diaryを紹介する。
RF-Diaryは、壁や閉塞や暗い環境で人々の生活を観察し、キャプションすることができる。
RF-Diaryを設計する際には,無線信号を用いて人の3次元ダイナミクスを捉え,フロアマップを用いてオブジェクトとの相互作用を学習する。
また、既存のビデオベースのキャプションデータセットを活用して、ラジオベースのキャプションモデルのパフォーマンスを向上させるマルチモーダル機能アライメントトレーニングスキームも使用しています。
RF-Diaryは可視光条件下で正確な字幕を生成する。
また、ビデオベースのキャプションアプローチでは意味のあるキャプションを生成できない暗黒または隠された設定でも、優れたパフォーマンスを維持している。
詳細については、プロジェクトのWebページを参照してください。
関連論文リスト
- Inserting Faces inside Captions: Image Captioning with Attention Guided Merging [0.0]
画像キャプションタスク用のデータセットであるAstroCaptionsを紹介する。
キャプション内に識別された人物の名前を挿入するための新しいポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2024-03-20T08:38:25Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head
Synthesis [90.43371339871105]
音声音声音声合成のための動的顔放射場(DFRF)を提案する。
DFRF条件は2次元外観画像上の放射界を呈示し、先行した顔の学習を行う。
実験により、DFRFは40kの反復しか持たない新しいアイデンティティのために、自然で高品質な音声駆動音声ヘッドビデオを合成できることが示された。
論文 参考訳(メタデータ) (2022-07-24T16:46:03Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - Neural Twins Talk [0.0]
本稿では,最新の画像キャプションモデルよりも優れた新しいツインカスケードアテンションモデルを提案する。
視覚的接頭辞は、入力画像内の特定の領域に接頭した文中の単語の存在を保証する。
実験の結果をCOCOデータセット上の3つの画像キャプションタスクで報告する。
論文 参考訳(メタデータ) (2020-09-26T06:58:58Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。