Fugu-MT 論文翻訳(概要): Inferring Intentions to Speak Using Accelerometer Data In-the-Wild

論文の概要: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild

arxiv url: http://arxiv.org/abs/2401.05849v1
Date: Thu, 11 Jan 2024 11:38:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 15:01:57.284261
Title: Inferring Intentions to Speak Using Accelerometer Data In-the-Wild
Title（参考訳）: 加速度計データを用いた対話意図の推定
Authors: Litian Li, Jord Molhoek, Jing Zhou
Abstract要約: この研究は加速度計のデータから、成功と失敗の意図を推測する。実生活におけるソーシャルネットワーキングイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。
参考スコア（独自算出の注目度）: 10.558554413129336
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Humans have good natural intuition to recognize when another person has something to say. It would be interesting if an AI can also recognize intentions to speak. Especially in scenarios when an AI is guiding a group discussion, this can be a useful skill. This work studies the inference of successful and unsuccessful intentions to speak from accelerometer data. This is chosen because it is privacy-preserving and feasible for in-the-wild settings since it can be placed in a smart badge. Data from a real-life social networking event is used to train a machine-learning model that aims to infer intentions to speak. A subset of unsuccessful intention-to-speak cases in the data is annotated. The model is trained on the successful intentions to speak and evaluated on both the successful and unsuccessful cases. In conclusion, there is useful information in accelerometer data, but not enough to reliably capture intentions to speak. For example, posture shifts are correlated with intentions to speak, but people also often shift posture without having an intention to speak, or have an intention to speak without shifting their posture. More modalities are likely needed to reliably infer intentions to speak.
Abstract（参考訳）: 人間は、他人が何か言うことがあることを認識するための自然な直感を持っている。 AIが会話の意図を認識できたら興味深いだろう。特にAIがグループディスカッションを指導しているシナリオでは、これは有用なスキルになります。この研究は加速度計のデータから、成功と失敗の意図を推測する。これは、プライバシーを保護し、スマートバッジに入れられるので、wild設定で実現可能であるため選択される。実生活のソーシャルネットワークイベントのデータは、話す意図を推論することを目的とした機械学習モデルのトレーニングに使用される。データ内の意図しないケースのサブセットに注釈を付ける。モデルは、成功事例と失敗事例の両方について話し、評価する成功した意図に基づいて訓練される。結論として、加速度計のデータには有用な情報があるが、話す意図を確実に捉えるには不十分である。例えば、姿勢シフトは話す意図と相関するが、人々は話す意図を持たずに姿勢を変えることも、姿勢を変えることなく話す意図を持つこともしばしばある。話す意図を確実に推測するためには、より多くのモダリティが必要である。

関連論文リスト

Towards Developmentally Plausible Rewards: Communicative Success as a Learning Signal for Interactive Language Models [49.22720751953838]
本研究では,子どもの言語習得に触発された対話型環境で言語モデルを訓練する手法を提案する。この設定では、話者は1ターンの対話でリスナーに何らかの情報を伝達しようと試み、コミュニケーションの成功が達成されれば報酬を受け取る。
論文参考訳（メタデータ） (2025-05-09T11:48:36Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Large language models in textual analysis for gesture selection [2.5169522472327404]
大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャ解析や生成に適応可能であることを示す。具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。
論文参考訳（メタデータ） (2023-10-04T14:46:37Z)
SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。実験の結果,セム情報により音声認識の有効性が向上することが示された。さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文参考訳（メタデータ） (2023-09-04T08:35:05Z)
Considerations for Ethical Speech Recognition Datasets [0.799536002595393]
自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
論文参考訳（メタデータ） (2023-05-03T12:38:14Z)
Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-15T21:46:39Z)
Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文参考訳（メタデータ） (2021-09-02T17:42:13Z)
Speaker De-identification System using Autoencoders and Adversarial Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文参考訳（メタデータ） (2020-11-09T19:22:05Z)
Learning to refer informatively by amortizing pragmatic reasoning [35.71540493379324]
我々は、話者が時間とともに合理的な音声行為のコストを減らそうとするアイデアを探求する。我々のアモータライズされたモデルは、様々な文脈で効果的かつ簡潔な言語を迅速に生成できることがわかりました。
論文参考訳（メタデータ） (2020-05-31T02:52:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。