論文の概要: EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild
- arxiv url: http://arxiv.org/abs/2502.14892v1
- Date: Mon, 17 Feb 2025 04:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:58.001726
- Title: EgoSpeak: Learning When to Speak for Egocentric Conversational Agents in the Wild
- Title(参考訳): EgoSpeak: Egocentric Conversational Agents in the Wild
- Authors: Junhyeok Kim, Min Soo Kim, Jiwan Chung, Jungbin Cho, Jisoo Kim, Sungwoong Kim, Gyeongbo Sim, Youngjae Yu,
- Abstract要約: EgoSpeakは、エゴセントリックストリーミングビデオにおけるリアルタイム音声開始予測の新しいフレームワークである。
話者の1対1の視点から会話をモデル化することにより、EgoSpeakは人間のような対話に向いている。
EgoSpeakはランダムおよびサイレントベースのベースラインをリアルタイムでパフォーマンスする。
- 参考スコア(独自算出の注目度): 20.84372784454967
- License:
- Abstract: Predicting when to initiate speech in real-world environments remains a fundamental challenge for conversational agents. We introduce EgoSpeak, a novel framework for real-time speech initiation prediction in egocentric streaming video. By modeling the conversation from the speaker's first-person viewpoint, EgoSpeak is tailored for human-like interactions in which a conversational agent must continuously observe its environment and dynamically decide when to talk. Our approach bridges the gap between simplified experimental setups and complex natural conversations by integrating four key capabilities: (1) first-person perspective, (2) RGB processing, (3) online processing, and (4) untrimmed video processing. We also present YT-Conversation, a diverse collection of in-the-wild conversational videos from YouTube, as a resource for large-scale pretraining. Experiments on EasyCom and Ego4D demonstrate that EgoSpeak outperforms random and silence-based baselines in real time. Our results also highlight the importance of multimodal input and context length in effectively deciding when to speak.
- Abstract(参考訳): 現実の環境で音声をいつ開始するかを予測することは、会話エージェントにとって根本的な課題である。
我々は,エゴセントリックなストリーミングビデオにおいて,リアルタイム音声開始予測のための新しいフレームワークであるEgoSpeakを紹介する。
話者の1対1の視点から会話をモデル化することにより、EgoSpeakは、会話エージェントがその環境を継続的に観察し、いつ話すべきかを動的に決定しなければならない人間のような対話に適合する。
提案手法は,(1)一人称視点,(2)RGB処理,(3)オンライン処理,(4)未編集映像処理の4つの重要な機能を統合することで,簡易な実験環境と複雑な自然な会話のギャップを埋めるものである。
また,YT-Conversationは,大規模事前学習のためのリソースとして,YouTubeから多種多様な会話ビデオのコレクションを提供する。
EasyComとEgo4Dの実験は、EgoSpeakがランダムおよびサイレントベースラインをリアルタイムで上回ることを示した。
また, 発話のタイミングを効果的に決定する上で, マルチモーダル入力と文脈長の重要性を強調した。
関連論文リスト
- INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。
INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。
このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文 参考訳(メタデータ) (2024-12-05T10:20:34Z) - Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective [36.09288501153965]
本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。
統合型マルチモーダルフレームワーク -AV-CONV(Audio-Visual Conversational Attention)を提案する。
具体的には、時間、オブジェクト間、モダリティ間の表現をモデル化するために、自己認識メカニズムを採用します。
論文 参考訳(メタデータ) (2023-12-20T09:34:22Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Intelligent Conversational Android ERICA Applied to Attentive Listening
and Job Interview [41.789773897391605]
我々はインテリジェントな会話型android ericaを開発した。
ERICAには,注意深い聞き取り,就職面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。
40人の高齢者が会話を分解することなく5~7分間の会話を行ったことが評価されている。
論文 参考訳(メタデータ) (2021-05-02T06:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。