論文の概要: psifx -- Psychological and Social Interactions Feature Extraction Package
- arxiv url: http://arxiv.org/abs/2407.10266v2
- Date: Tue, 16 Jul 2024 09:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:14:33.744427
- Title: psifx -- Psychological and Social Interactions Feature Extraction Package
- Title(参考訳): psifx -- 心理的・社会的相互作用の特徴抽出パッケージ
- Authors: Guillaume Rochette, Matthew J. Vowels,
- Abstract要約: psifxはマルチモーダルな特徴抽出ツールキットである。
それは、人間の科学研究に最先端の機械学習技術を使うことを容易にし、民主化することを目的としている。
- 参考スコア(独自算出の注目度): 3.560429497877327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: psifx is a plug-and-play multi-modal feature extraction toolkit, aiming to facilitate and democratize the use of state-of-the-art machine learning techniques for human sciences research. It is motivated by a need (a) to automate and standardize data annotation processes, otherwise involving expensive, lengthy, and inconsistent human labor, such as the transcription or coding of behavior changes from audio and video sources; (b) to develop and distribute open-source community-driven psychology research software; and (c) to enable large-scale access and ease of use to non-expert users. The framework contains an array of tools for tasks, such as speaker diarization, closed-caption transcription and translation from audio, as well as body, hand, and facial pose estimation and gaze tracking from video. The package has been designed with a modular and task-oriented approach, enabling the community to add or update new tools easily. We strongly hope that this package will provide psychologists a simple and practical solution for efficiently a range of audio, linguistic, and visual features from audio and video, thereby creating new opportunities for in-depth study of real-time behavioral phenomena.
- Abstract(参考訳): psifxはプラグアンドプレイのマルチモーダル特徴抽出ツールキットで、最先端の機械学習技術を人間の科学研究に活用し、民主化することを目的としている。
それは要求によって動機付けられています
(a) 音声及び映像ソースからの行動変化の転写又は符号化等、高価で長くて一貫性のない人的労働を伴わない、データアノテーションプロセスの自動化及び標準化
b)オープンソースコミュニティ主導の心理学研究ソフトウェアの開発と配布
(c) 非エキスパートユーザへの大規模アクセスと使いやすさを実現する。
このフレームワークには、スピーカーダイアリゼーション、クローズドキャプションの書き起こし、音声からの翻訳、身体、手、顔のポーズ推定、ビデオからの視線追跡といったタスクのための一連のツールが含まれている。
このパッケージはモジュール的でタスク指向のアプローチで設計されており、コミュニティが新しいツールを容易に追加したり、更新したりすることができる。
このパッケージは、心理学者に音声やビデオから音声、言語、視覚的特徴を効率よく提供し、リアルタイムの行動現象を深く研究する新たな機会を生み出すことを強く願っている。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries [0.054204929130712134]
このプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。
このシステムは、新しい/追加の機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
論文 参考訳(メタデータ) (2024-06-20T12:45:23Z) - Supporting Experts with a Multimodal Machine-Learning-Based Tool for
Human Behavior Analysis of Conversational Videos [40.30407535831779]
そこで我々は,プロビデンス(Providence)を開発した。プロビデンス(Providence)は,専門家による形式的な研究から得られた設計上の考察に基づくビジュアルプログラミングツールである。
これにより、専門家はさまざまな機械学習アルゴリズムを組み合わせることで、コードを書くことなく人間の行動の手がかりを捉えることができる。
本研究は,会話の場面検索タスクの達成に要する認知負荷が少なく,ユーザビリティと満足度の高いアウトプットを示した。
論文 参考訳(メタデータ) (2024-02-17T00:27:04Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。
本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。
テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Open-Source Tools for Behavioral Video Analysis: Setup, Methods, and
Development [2.248500763940652]
ビデオ分析の方法は、より正確でスケーラブルで再現可能な行動量化を変換している。
動画解析のためのオープンソースのツールが、行動を理解するための新しい実験的なアプローチを生み出した。
我々は、現在利用可能な、ビデオ分析のためのオープンソースツール、ビデオ録画方法に慣れたラボでのセットアップ方法、対処すべき課題についてレビューする。
論文 参考訳(メタデータ) (2022-04-06T14:06:43Z) - Agents that Listen: High-Throughput Reinforcement Learning with Multiple
Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。
私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文 参考訳(メタデータ) (2021-07-05T18:00:50Z) - Py-Feat: Python Facial Expression Analysis Toolbox [0.0]
Py-FeatはオープンソースのPythonツールボックスで、顔の表情データの検出、前処理、分析、視覚化をサポートする。
このプラットフォームが、人間の行動研究における表情データの利用を増やすことを願っている。
論文 参考訳(メタデータ) (2021-04-08T04:52:21Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。