論文の概要: Preliminary Use of Vision Language Model Driven Extraction of Mouse Behavior Towards Understanding Fear Expression
- arxiv url: http://arxiv.org/abs/2510.19160v1
- Date: Wed, 22 Oct 2025 01:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.919353
- Title: Preliminary Use of Vision Language Model Driven Extraction of Mouse Behavior Towards Understanding Fear Expression
- Title(参考訳): 表情理解に向けた視覚言語モデルによるマウス行動抽出の予備的利用
- Authors: Paimon Goulart, Jordan Steinhauser, Kylene Shuler, Edward Korzus, Jia Chen, Evangelos E. Papalexakis,
- Abstract要約: この研究は、マウスの様々な振る舞いを分類するために、ビデオにテキスト入力をエンコードする視覚言語モデル(VLM)を確立する。
我々はオープンソースのQwen2.5-VLモデルを用いて、プロンプト、ラベル付き例を用いたインコンテキスト学習(ICL)、フレームレベルの前処理による性能の向上を行う。
- 参考スコア(独自算出の注目度): 5.170961907232911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integration of diverse data will be a pivotal step towards improving scientific explorations in many disciplines. This work establishes a vision-language model (VLM) that encodes videos with text input in order to classify various behaviors of a mouse existing in and engaging with their environment. Importantly, this model produces a behavioral vector over time for each subject and for each session the subject undergoes. The output is a valuable dataset that few programs are able to produce with as high accuracy and with minimal user input. Specifically, we use the open-source Qwen2.5-VL model and enhance its performance through prompts, in-context learning (ICL) with labeled examples, and frame-level preprocessing. We found that each of these methods contributes to improved classification, and that combining them results in strong F1 scores across all behaviors, including rare classes like freezing and fleeing, without any model fine-tuning. Overall, this model will support interdisciplinary researchers studying mouse behavior by enabling them to integrate diverse behavioral features, measured across multiple time points and environments, into a comprehensive dataset that can address complex research questions.
- Abstract(参考訳): 多様なデータの統合は、多くの分野における科学的探索を改善するための重要なステップとなるでしょう。
この研究は、視覚言語モデル(VLM)を確立し、ビデオにテキスト入力をエンコードすることで、マウスの環境に存在する様々な振る舞いを分類する。
重要なことに、このモデルは各主題と各セッションに対して時間とともに行動ベクトルを生成する。
アウトプットは、少数のプログラムが高い精度で、最小限のユーザ入力で生成できる貴重なデータセットである。
具体的には、オープンソースのQwen2.5-VLモデルを用いて、プロンプト、ラベル付き例を用いたテキスト内学習(ICL)、フレームレベルの前処理による性能の向上を行う。
これらの手法は, 分類の改善に寄与し, その組み合わせにより, 凍結や脱走などの稀なクラスを含む, あらゆる行動に強いF1スコアが得られた。
全体として、このモデルはマウスの行動を研究する学際的研究者を支援し、複数の時間点と環境にわたって測定された多様な行動特徴を、複雑な研究課題に対処可能な包括的なデータセットに統合する。
関連論文リスト
- Disentanglement Beyond Static vs. Dynamic: A Benchmark and Evaluation Framework for Multi-Factor Sequential Representations [14.972702558607557]
6つの異なるデータセット間での複数要素の逐次的絡み合いを評価するための、最初の標準ベンチマークを導入する。
本研究では,潜伏次元を意味的因子と自動的に整列するポストホック潜伏探索段階を提案し,最先端の結果が得られるクープマンモデルを提案する。
論文 参考訳(メタデータ) (2025-10-20T08:58:23Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、人工知能における長年の問題であり、幅広い分野で応用されている。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
本研究では,MM-Fit,myoGym, MotionSense, MHEALTHなどの実HARデータセットの性能向上を図る。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。