Fugu-MT 論文翻訳(概要): Rodent-Bench

論文の概要: Rodent-Bench

arxiv url: http://arxiv.org/abs/2602.18540v1
Date: Fri, 20 Feb 2026 15:14:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.152313
Title: Rodent-Bench
Title（参考訳）: Rodent‐Bench
Authors: Thomas Heap, Laurence Aitchison, Emma Cahill, Adriana Casado Rodriguez,
Abstract要約: 我々は,マルチモーダル大言語モデル(MLLM)のアノテート行動映像のアノテート能力を評価するための新しいベンチマークであるRodent-Benchを提案する。我々は,Gemini-2.5-Pro,Gemini-2.5-Flash,Qwen-VL-Maxなどの最先端MLLMをこのベンチマークを用いて評価し,これらのモデルのいずれも,このタスクのアシスタントとして使用するのに十分な性能を発揮できないことを発見した。
参考スコア（独自算出の注目度）: 14.876393544574688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Rodent-Bench, a novel benchmark designed to evaluate the ability of Multimodal Large Language Models (MLLMs) to annotate rodent behaviour footage. We evaluate state-of-the-art MLLMs, including Gemini-2.5-Pro, Gemini-2.5-Flash and Qwen-VL-Max, using this benchmark and find that none of these models perform strongly enough to be used as an assistant for this task. Our benchmark encompasses diverse datasets spanning multiple behavioral paradigms including social interactions, grooming, scratching, and freezing behaviors, with videos ranging from 10 minutes to 35 minutes in length. We provide two benchmark versions to accommodate varying model capabilities and establish standardized evaluation metrics including second-wise accuracy, macro F1, mean average precision, mutual information, and Matthew's correlation coefficient. While some models show modest performance on certain datasets (notably grooming detection), overall results reveal significant challenges in temporal segmentation, handling extended video sequences, and distinguishing subtle behavioral states. Our analysis identifies key limitations in current MLLMs for scientific video annotation and provides insights for future model development. Rodent-Bench serves as a foundation for tracking progress toward reliable automated behavioral annotation in neuroscience research.
Abstract（参考訳）: 我々は,マルチモーダル大言語モデル(MLLM)のアノテート行動映像のアノテート能力を評価するための新しいベンチマークであるRodent-Benchを提案する。我々は,Gemini-2.5-Pro,Gemini-2.5-Flash,Qwen-VL-Maxなどの最先端MLLMをこのベンチマークを用いて評価し,これらのモデルのいずれも,このタスクのアシスタントとして使用するのに十分な性能を発揮できないことを発見した。私たちのベンチマークでは、ソーシャルインタラクション、グルーミング、スクラッチ、凍結行動など、さまざまな行動パラダイムにまたがるさまざまなデータセットを網羅し、ビデオの長さは10分から35分である。モデル機能に適合する2つのベンチマークバージョンを提供し、第2次精度、マクロF1、平均精度、相互情報、マシュー相関係数を含む標準化された評価指標を確立する。いくつかのモデルでは、特定のデータセット上では控えめなパフォーマンス(特に重み付け検出)を示すが、全体的な結果は、時間的セグメンテーション、拡張されたビデオシーケンスの処理、微妙な行動状態の識別において重大な課題を浮き彫りにしている。本分析では,科学ビデオアノテーションにおけるMLLMの限界を認識し,今後のモデル開発に対する洞察を提供する。 Rodent-Benchは神経科学研究における信頼性の高い自動行動アノテーションに向けた進歩を追跡する基盤として機能している。

関連論文リスト

Preliminary Use of Vision Language Model Driven Extraction of Mouse Behavior Towards Understanding Fear Expression [5.170961907232911]
この研究は、マウスの様々な振る舞いを分類するために、ビデオにテキスト入力をエンコードする視覚言語モデル(VLM)を確立する。我々はオープンソースのQwen2.5-VLモデルを用いて、プロンプト、ラベル付き例を用いたインコンテキスト学習(ICL)、フレームレベルの前処理による性能の向上を行う。
論文参考訳（メタデータ） (2025-10-22T01:33:39Z)
Boosting Micro-Expression Analysis via Prior-Guided Video-Level Regression [15.099304324307434]
マイクロ・エクスプレッション(ME)は、不随意、低強度、短時間の表情である。既存のME分析手法の多くは、固定されたウィンドウサイズと難しい決定を伴うウィンドウレベルの分類に依存している。本稿では,ME解析のための事前誘導型ビデオレベル回帰手法を提案する。
論文参考訳（メタデータ） (2025-08-26T09:13:36Z)
HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-06-24T20:29:16Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文参考訳（メタデータ） (2023-11-28T17:59:04Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。