Fugu-MT 論文翻訳(概要): BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

論文の概要: BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

arxiv url: http://arxiv.org/abs/2603.12176v1
Date: Thu, 12 Mar 2026 17:09:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.242851
Title: BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning
Title（参考訳）: ビヘイビアVLM:視覚言語推論を用いたファインタニングフリーな行動理解
Authors: Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu,
Abstract要約: 本稿では,ポーズ推定と行動理解のための統合されたフレームワークであるBehavimentVLMを提案する。ポーズ推定のために,時間的,空間的,横断的な推論を統合した多段階パイプラインを提案する。振舞いの理解のために,過剰なセグメンテッドな振舞い発見のために,深く埋め込まれたクラスタリングを統合するパイプラインを提案する。
参考スコア（独自算出の注目度）: 12.25724335471528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding freely moving animal behavior is central to neuroscience, where pose estimation and behavioral understanding form the foundation for linking neural activity to natural actions. Yet both tasks still depend heavily on human annotation or unstable unsupervised pipelines, limiting scalability and reproducibility. We present BehaviorVLM, a unified vision-language framework for pose estimation and behavioral understanding that requires no task-specific finetuning and minimal human labeling by guiding pretrained Vision-Language Models (VLMs) through detailed, explicit, and verifiable reasoning steps. For pose estimation, we leverage quantum-dot-grounded behavioral data and propose a multi-stage pipeline that integrates temporal, spatial, and cross-view reasoning. This design greatly reduces human annotation effort, exposes low-confidence labels through geometric checks such as reprojection error, and produces labels that can later be filtered, corrected, or used to fine-tune downstream pose models. For behavioral understanding, we propose a pipeline that integrates deep embedded clustering for over-segmented behavior discovery, VLM-based per-clip video captioning, and LLM-based reasoning to merge and semantically label behavioral segments. The behavioral pipeline can operate directly from visual information and does not require keypoints to segment behavior. Together, these components enable scalable, interpretable, and label-light analysis of multi-animal behavior.
Abstract（参考訳）: 自由に動く動物の行動を理解することは神経科学の中心であり、ポーズ推定と行動理解が神経活動と自然な行動とを結びつける基盤となる。しかし、どちらのタスクも人間のアノテーションや不安定な教師なしパイプラインに大きく依存し、スケーラビリティと再現性を制限する。本稿では,タスク固有の微調整や最小限の人間のラベル付けを必要としない,ポーズ推定と行動理解のための統一的な視覚言語フレームワークであるBehavimentVLMについて,詳細で明示的で検証可能な推論手順を通じて,事前学習された視覚言語モデル(VLM)を導出する。ポーズ推定には量子ドットを用いた行動データを活用するとともに,時間的・空間的・横断的な推論を統合した多段階パイプラインを提案する。この設計は、人間のアノテーションの労力を大幅に削減し、再射誤差などの幾何学的チェックを通じて低信頼のラベルを公開し、後でフィルタリング、修正、下流のポーズモデルの微調整に使用できるラベルを生成する。行動理解のために,我々は,深層クラスタリングを組み込んだパイプラインを提案し,オーバーセグメンテッドな行動発見,VLMに基づくクリップごとのキャプション,LCMに基づく行動セグメントのマージとセマンティックなラベル付けを行う。ビヘイビアパイプラインは視覚情報から直接操作することができ、動作をセグメント化するキーポイントを必要としない。これらのコンポーネントは、スケーラブルで、解釈可能で、マルチアニマルな振る舞いのラベルライト分析を可能にする。

関連論文リスト

From Latent Signals to Reflection Behavior: Tracing Meta-Cognitive Activation Trajectory in R1-Style LLMs [48.33546389897804]
R1型LPMは自己反射の能力に注目が集まっているが、そのような行動の基盤となる内部メカニズムはいまだ不明である。 logitレンズを使ってトークンレベルのセマンティクスを読み取ると、構造化された進行が明らかになる。以上の結果から,潜時モニタリングから談話レベルの規制,そして最終的に自己回帰を過大化させる,人間的なメタ認知プロセスの進展が示唆された。
論文参考訳（メタデータ） (2026-02-02T11:58:24Z)
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。 textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文参考訳（メタデータ） (2026-01-26T06:16:17Z)
CBMAS: Cognitive Behavioral Modeling via Activation Steering [5.131778762865578]
大規模言語モデル(LLM)は、しばしばプロンプト、レイヤ、コンテキスト間で予測不可能な認知行動を符号化する。 CBMASは, 連続的アクティベーションステアリングのための診断フレームワークである。
論文参考訳（メタデータ） (2026-01-03T13:04:14Z)
Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文参考訳（メタデータ） (2025-12-30T05:09:11Z)
Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文参考訳（メタデータ） (2023-12-06T21:14:20Z)
Learning What and Where -- Unsupervised Disentangling Location and Identity Tracking [0.44040106718326594]
教師なしLOCation and Identity Tracking System(Loci)を導入する。ローチは脳の背腹側経路にインスパイアされ、自己監督された分離機構を用いて、何とどこにも結合する問題に取り組む。 Lociは、より深い説明指向のビデオ処理のステージを設定できる。
論文参考訳（メタデータ） (2022-05-26T13:30:14Z)
Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T14:13:04Z)
Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。 ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-03-03T23:43:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。