論文の概要: Identification of Conversation Partners from Egocentric Video
- arxiv url: http://arxiv.org/abs/2406.08089v1
- Date: Wed, 12 Jun 2024 11:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:15:13.700458
- Title: Identification of Conversation Partners from Egocentric Video
- Title(参考訳): エゴセントリックビデオからの会話相手の同定
- Authors: Tobias Dorszewski, Søren A. Fuglsang, Jens Hjortkjær,
- Abstract要約: エゴセントリックなビデオデータは、ユーザの会話相手を特定するために使用することができる。
近年のコンピュータビジョンにおけるデータセットとタスクの導入は、エゴセントリックな観点からの社会的相互作用の分析に向けた進歩を可能にする。
私たちのデータセットは、多様な多会話シナリオのエゴセントリックなビデオ69時間で構成されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Communicating in noisy, multi-talker environments is challenging, especially for people with hearing impairments. Egocentric video data can potentially be used to identify a user's conversation partners, which could be used to inform selective acoustic amplification of relevant speakers. Recent introduction of datasets and tasks in computer vision enable progress towards analyzing social interactions from an egocentric perspective. Building on this, we focus on the task of identifying conversation partners from egocentric video and describe a suitable dataset. Our dataset comprises 69 hours of egocentric video of diverse multi-conversation scenarios where each individual was assigned one or more conversation partners, providing the labels for our computer vision task. This dataset enables the development and assessment of algorithms for identifying conversation partners and evaluating related approaches. Here, we describe the dataset alongside initial baseline results of this ongoing work, aiming to contribute to the exciting advancements in egocentric video analysis for social settings.
- Abstract(参考訳): ノイズの多いマルチストーカー環境でのコミュニケーションは、特に聴覚障害のある人にとっては困難である。
エゴセントリックなビデオデータは、ユーザの会話相手を特定するために使用することができ、関連する話者の選択的音響増幅を通知するために使用することができる。
近年のコンピュータビジョンにおけるデータセットとタスクの導入は、エゴセントリックな観点からの社会的相互作用の分析に向けた進歩を可能にする。
これに基づいて、対話相手を自我中心のビデオから識別し、適切なデータセットを記述するタスクに焦点を当てる。
我々のデータセットは、各個人が1つ以上の会話パートナーに割り当てられた多様な会話シナリオのエゴセントリックなビデオ69時間で構成され、コンピュータビジョンタスクのラベルを提供する。
このデータセットは、会話相手を特定し、関連するアプローチを評価するアルゴリズムの開発と評価を可能にする。
ここでは、この進行中の作業の初期ベースライン結果とともにデータセットを説明し、ソーシャルな設定のためのエゴセントリックなビデオ分析のエキサイティングな進歩に寄与することを目的としている。
関連論文リスト
- The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective [36.09288501153965]
本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。
統合型マルチモーダルフレームワーク -AV-CONV(Audio-Visual Conversational Attention)を提案する。
具体的には、時間、オブジェクト間、モダリティ間の表現をモデル化するために、自己認識メカニズムを採用します。
論文 参考訳(メタデータ) (2023-12-20T09:34:22Z) - End-to-End Continuous Speech Emotion Recognition in Real-life Customer
Service Call Center Conversations [0.0]
本稿では,顧客サービスコールセンタ会話における連続SERのための大規模実生活データセット(CusEmo)を構築するためのアプローチを提案する。
我々は,実生活におけるコールセンター会話における感情の微妙さ,複雑さ,継続性を捉えるために,次元的感情アノテーションアプローチを採用した。
この研究は、データセットへのEnd-to-End (E2E) SERシステムの適用中に発生する課題にも対処している。
論文 参考訳(メタデータ) (2023-10-02T11:53:48Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。