Fugu-MT 論文翻訳(概要): psifx -- Psychological and Social Interactions Feature Extraction Package

論文の概要: psifx -- Psychological and Social Interactions Feature Extraction Package

arxiv url: http://arxiv.org/abs/2407.10266v1
Date: Sun, 14 Jul 2024 16:20:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 18:49:26.852033
Title: psifx -- Psychological and Social Interactions Feature Extraction Package
Title（参考訳）: psifx -- 心理的・社会的相互作用の特徴抽出パッケージ
Authors: Guillaume Rochette, Matthew J. Vowels,
Abstract要約: psifxはマルチモーダルな特徴抽出ツールキットである。それは、人間の科学研究に最先端の機械学習技術を使うことを容易にし、民主化することを目的としている。
参考スコア（独自算出の注目度）: 3.560429497877327
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: psifx is a plug-and-play multi-modal feature extraction toolkit, aiming to facilitate and democratize the use of state-of-the-art machine learning techniques for human sciences research. It is motivated by a need (a) to automate and standardize data annotation processes, otherwise involving expensive, lengthy, and inconsistent human labor, such as the transcription or coding of behavior changes from audio and video sources; (b) to develop and distribute open-source community-driven psychology research software; and (c) to enable large-scale access and ease of use to non-expert users. The framework contains an array of tools for tasks, such as speaker diarization, closed-caption transcription and translation from audio, as well as body, hand, and facial pose estimation and gaze tracking from video. The package has been designed with a modular and task-oriented approach, enabling the community to add or update new tools easily. We strongly hope that this package will provide psychologists a simple and practical solution for efficiently a range of audio, linguistic, and visual features from audio and video, thereby creating new opportunities for in-depth study of real-time behavioral phenomena.
Abstract（参考訳）: psifxはプラグアンドプレイのマルチモーダル特徴抽出ツールキットで、最先端の機械学習技術を人間の科学研究に活用し、民主化することを目的としている。それは要求によって動機付けられています (a) 音声及び映像ソースからの行動変化の転写又は符号化等、高価で長くて一貫性のない人的労働を伴わない、データアノテーションプロセスの自動化及び標準化 b)オープンソースコミュニティ主導の心理学研究ソフトウェアの開発と配布 (c) 非エキスパートユーザへの大規模アクセスと使いやすさを実現する。このフレームワークには、スピーカーダイアリゼーション、クローズドキャプションの書き起こし、音声からの翻訳、身体、手、顔のポーズ推定、ビデオからの視線追跡といったタスクのための一連のツールが含まれている。このパッケージはモジュール的でタスク指向のアプローチで設計されており、コミュニティが新しいツールを容易に追加したり、更新したりすることができる。このパッケージは、心理学者に音声やビデオから音声、言語、視覚的特徴を効率よく提供し、リアルタイムの行動現象を深く研究する新たな機会を生み出すことを強く願っている。

関連論文リスト

Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
TinyTroupe: An LLM-powered Multiagent Persona Simulation Toolkit [7.56072680903655]
詳細なペルソナ定義を可能にするシミュレーションツールキットであるTinyTroupeを紹介する。 TinyTroupeのコンポーネントは、代表的な動作例を使って提示される。このライブラリはhttps://github.com/tinytroupe.comでオープンソースとして公開されている。
論文参考訳（メタデータ） (2025-07-13T21:00:27Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文参考訳（メタデータ） (2024-09-12T16:51:58Z)
Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries [0.054204929130712134]
このプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。このシステムは、新しい/追加の機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
論文参考訳（メタデータ） (2024-06-20T12:45:23Z)
ChatHuman: Chatting about 3D Humans with Tools [57.29285473727107]
ChatHumanは、特殊なメソッドの機能を統一されたフレームワークに統合する、言語駆動のシステムである。 ChatHumanは、3Dヒューマンタスクに特化したツールの利用、分析、相互作用に熟練したアシスタントとして機能する。
論文参考訳（メタデータ） (2024-05-07T17:59:31Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
The AffectToolbox: Affect Analysis for Everyone [10.526991118781913]
AffectToolboxは、研究者が感情に敏感な研究やプロトタイプの開発を支援することを目的とした、新しいソフトウェアシステムである。提案システムでは,既存のフレームワークが生み出す課題に対処する。プログラミングの知識が深く,主にパワーユーザや熟練した開発者を対象とする場合が多い。このアーキテクチャは、複数の感情チャネルとモダリティに対する感情認識のための様々なモデルと、マルチモーダルアセスメントを統合された結果にマージする精巧な融合システムを含んでいる。
論文参考訳（メタデータ） (2024-02-23T08:55:47Z)
Supporting Experts with a Multimodal Machine-Learning-Based Tool for Human Behavior Analysis of Conversational Videos [40.30407535831779]
そこで我々は,プロビデンス(Providence)を開発した。プロビデンス(Providence)は,専門家による形式的な研究から得られた設計上の考察に基づくビジュアルプログラミングツールである。これにより、専門家はさまざまな機械学習アルゴリズムを組み合わせることで、コードを書くことなく人間の行動の手がかりを捉えることができる。本研究は,会話の場面検索タスクの達成に要する認知負荷が少なく,ユーザビリティと満足度の高いアウトプットを示した。
論文参考訳（メタデータ） (2024-02-17T00:27:04Z)
CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文参考訳（メタデータ） (2023-12-18T03:34:07Z)
Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文参考訳（メタデータ） (2023-11-26T09:11:32Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
Open-Source Tools for Behavioral Video Analysis: Setup, Methods, and Development [2.248500763940652]
ビデオ分析の方法は、より正確でスケーラブルで再現可能な行動量化を変換している。動画解析のためのオープンソースのツールが、行動を理解するための新しい実験的なアプローチを生み出した。我々は、現在利用可能な、ビデオ分析のためのオープンソースツール、ビデオ録画方法に慣れたラボでのセットアップ方法、対処すべき課題についてレビューする。
論文参考訳（メタデータ） (2022-04-06T14:06:43Z)
Agents that Listen: High-Throughput Reinforcement Learning with Multiple Sensory Systems [6.952659395337689]
そこで我々は,VizDoomシミュレータの新バージョンを導入し,生の音声を観察する高効率な学習環境を構築した。私たちはエージェントにDoomのフルゲームをするように訓練し、従来のビジョンベースの敵を一貫して打ち負かすことができることに気付きました。
論文参考訳（メタデータ） (2021-07-05T18:00:50Z)
Py-Feat: Python Facial Expression Analysis Toolbox [0.0]
Py-FeatはオープンソースのPythonツールボックスで、顔の表情データの検出、前処理、分析、視覚化をサポートする。このプラットフォームが、人間の行動研究における表情データの利用を増やすことを願っている。
論文参考訳（メタデータ） (2021-04-08T04:52:21Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)
Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文参考訳（メタデータ） (2020-01-13T14:53:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。