論文の概要: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
- arxiv url: http://arxiv.org/abs/2401.05849v1
- Date: Thu, 11 Jan 2024 11:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 15:01:57.284261
- Title: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
- Title(参考訳): 加速度計データを用いた対話意図の推定
- Authors: Litian Li, Jord Molhoek, Jing Zhou
- Abstract要約: この研究は加速度計のデータから、成功と失敗の意図を推測する。
実生活におけるソーシャルネットワーキングイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。
- 参考スコア(独自算出の注目度): 10.558554413129336
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans have good natural intuition to recognize when another person has
something to say. It would be interesting if an AI can also recognize
intentions to speak. Especially in scenarios when an AI is guiding a group
discussion, this can be a useful skill. This work studies the inference of
successful and unsuccessful intentions to speak from accelerometer data. This
is chosen because it is privacy-preserving and feasible for in-the-wild
settings since it can be placed in a smart badge. Data from a real-life social
networking event is used to train a machine-learning model that aims to infer
intentions to speak. A subset of unsuccessful intention-to-speak cases in the
data is annotated. The model is trained on the successful intentions to speak
and evaluated on both the successful and unsuccessful cases. In conclusion,
there is useful information in accelerometer data, but not enough to reliably
capture intentions to speak. For example, posture shifts are correlated with
intentions to speak, but people also often shift posture without having an
intention to speak, or have an intention to speak without shifting their
posture. More modalities are likely needed to reliably infer intentions to
speak.
- Abstract(参考訳): 人間は、他人が何か言うことがあることを認識するための自然な直感を持っている。
AIが会話の意図を認識できたら興味深いだろう。
特にAIがグループディスカッションを指導しているシナリオでは、これは有用なスキルになります。
この研究は加速度計のデータから、成功と失敗の意図を推測する。
これは、プライバシーを保護し、スマートバッジに入れられるので、wild設定で実現可能であるため選択される。
実生活のソーシャルネットワークイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。
データ内の意図しないケースのサブセットに注釈を付ける。
モデルは、成功事例と失敗事例の両方について話し、評価する成功した意図に基づいて訓練される。
結論として、加速度計のデータには有用な情報があるが、話す意図を確実に捉えるには不十分である。
例えば、姿勢シフトは話す意図と相関するが、人々は話す意図を持たずに姿勢を変えることも、姿勢を変えることなく話す意図を持つこともしばしばある。
話す意図を確実に推測するためには、より多くのモダリティが必要である。
関連論文リスト
- Large language models in textual analysis for gesture selection [2.5169522472327404]
大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャ解析や生成に適応可能であることを示す。
具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。
論文 参考訳(メタデータ) (2023-10-04T14:46:37Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Considerations for Ethical Speech Recognition Datasets [0.799536002595393]
自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。
トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。
我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
論文 参考訳(メタデータ) (2023-05-03T12:38:14Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Paraphrasing Techniques for Maritime QA system [39.45862109462649]
我々は,人間の自然言語を機械で理解可能な言語に自動翻訳する機能を開発した。
多くの現実世界の防衛シナリオでは、このような大量の訓練データを取得することは不可能である。
本研究では,大規模学習データセットの自動生成にパラフレージング手法を利用する方法について検討する。
論文 参考訳(メタデータ) (2022-03-21T10:20:30Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Few-shot Language Coordination by Modeling Theory of Mind [95.54446989205117]
我々は、数ショット$textit language coordinate$のタスクについて研究する。
リードエージェントは、言語能力の異なるエージェントの$textitpopulation$と調整する必要があります。
これは、人間のコミュニケーションの重要な構成要素であるパートナーの信念をモデル化する能力を必要とする。
論文 参考訳(メタデータ) (2021-07-12T19:26:11Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Learning to refer informatively by amortizing pragmatic reasoning [35.71540493379324]
我々は、話者が時間とともに合理的な音声行為のコストを減らそうとするアイデアを探求する。
我々のアモータライズされたモデルは、様々な文脈で効果的かつ簡潔な言語を迅速に生成できることがわかりました。
論文 参考訳(メタデータ) (2020-05-31T02:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。