論文の概要: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
- arxiv url: http://arxiv.org/abs/2401.05849v1
- Date: Thu, 11 Jan 2024 11:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 15:01:57.284261
- Title: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
- Title(参考訳): 加速度計データを用いた対話意図の推定
- Authors: Litian Li, Jord Molhoek, Jing Zhou
- Abstract要約: この研究は加速度計のデータから、成功と失敗の意図を推測する。
実生活におけるソーシャルネットワーキングイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。
- 参考スコア(独自算出の注目度): 10.558554413129336
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans have good natural intuition to recognize when another person has
something to say. It would be interesting if an AI can also recognize
intentions to speak. Especially in scenarios when an AI is guiding a group
discussion, this can be a useful skill. This work studies the inference of
successful and unsuccessful intentions to speak from accelerometer data. This
is chosen because it is privacy-preserving and feasible for in-the-wild
settings since it can be placed in a smart badge. Data from a real-life social
networking event is used to train a machine-learning model that aims to infer
intentions to speak. A subset of unsuccessful intention-to-speak cases in the
data is annotated. The model is trained on the successful intentions to speak
and evaluated on both the successful and unsuccessful cases. In conclusion,
there is useful information in accelerometer data, but not enough to reliably
capture intentions to speak. For example, posture shifts are correlated with
intentions to speak, but people also often shift posture without having an
intention to speak, or have an intention to speak without shifting their
posture. More modalities are likely needed to reliably infer intentions to
speak.
- Abstract(参考訳): 人間は、他人が何か言うことがあることを認識するための自然な直感を持っている。
AIが会話の意図を認識できたら興味深いだろう。
特にAIがグループディスカッションを指導しているシナリオでは、これは有用なスキルになります。
この研究は加速度計のデータから、成功と失敗の意図を推測する。
これは、プライバシーを保護し、スマートバッジに入れられるので、wild設定で実現可能であるため選択される。
実生活のソーシャルネットワークイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。
データ内の意図しないケースのサブセットに注釈を付ける。
モデルは、成功事例と失敗事例の両方について話し、評価する成功した意図に基づいて訓練される。
結論として、加速度計のデータには有用な情報があるが、話す意図を確実に捉えるには不十分である。
例えば、姿勢シフトは話す意図と相関するが、人々は話す意図を持たずに姿勢を変えることも、姿勢を変えることなく話す意図を持つこともしばしばある。
話す意図を確実に推測するためには、より多くのモダリティが必要である。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Large language models in textual analysis for gesture selection [2.5169522472327404]
大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャ解析や生成に適応可能であることを示す。
具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。
論文 参考訳(メタデータ) (2023-10-04T14:46:37Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Considerations for Ethical Speech Recognition Datasets [0.799536002595393]
自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。
トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。
我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
論文 参考訳(メタデータ) (2023-05-03T12:38:14Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Learning to refer informatively by amortizing pragmatic reasoning [35.71540493379324]
我々は、話者が時間とともに合理的な音声行為のコストを減らそうとするアイデアを探求する。
我々のアモータライズされたモデルは、様々な文脈で効果的かつ簡潔な言語を迅速に生成できることがわかりました。
論文 参考訳(メタデータ) (2020-05-31T02:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。