論文の概要: Can Large Models Fool the Eye? A New Turing Test for Biological Animation
- arxiv url: http://arxiv.org/abs/2508.06072v1
- Date: Fri, 08 Aug 2025 07:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.113131
- Title: Can Large Models Fool the Eye? A New Turing Test for Biological Animation
- Title(参考訳): 大型モデルは目を動かすことができるか? 生体アニメーションの新しいチューリングテスト
- Authors: Zijian Chen, Lirong Deng, Zhengyu Chen, Kaiwei Zhang, Qi Jia, Yuan Tian, Yucheng Zhu, Guangtao Zhai,
- Abstract要約: 大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)を視覚的アニメーションで評価するための新しいフレームワークであるBioMotion Arenaを紹介する。
本手法は,生物特有の運動パターンの視覚的知覚からインスピレーションを得ている。
我々は,90の生物運動変種に対して,ペアワイズ比較評価を用い,53のメインストリームLLMとMLLMの45k以上を収集した。
- 参考スコア(独自算出の注目度): 38.24758662565375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the abilities of large models and manifesting their gaps are challenging. Current benchmarks adopt either ground-truth-based score-form evaluation on static datasets or indistinct textual chatbot-style human preferences collection, which may not provide users with immediate, intuitive, and perceptible feedback on performance differences. In this paper, we introduce BioMotion Arena, a novel framework for evaluating large language models (LLMs) and multimodal large language models (MLLMs) via visual animation. Our methodology draws inspiration from the inherent visual perception of motion patterns characteristic of living organisms that utilizes point-light source imaging to amplify the performance discrepancies between models. Specifically, we employ a pairwise comparison evaluation and collect more than 45k votes for 53 mainstream LLMs and MLLMs on 90 biological motion variants. Data analyses show that the crowd-sourced human votes are in good agreement with those of expert raters, demonstrating the superiority of our BioMotion Arena in offering discriminative feedback. We also find that over 90\% of evaluated models, including the cutting-edge open-source InternVL3 and proprietary Claude-4 series, fail to produce fundamental humanoid point-light groups, much less smooth and biologically plausible motions. This enables BioMotion Arena to serve as a challenging benchmark for performance visualization and a flexible evaluation framework without restrictions on ground-truth.
- Abstract(参考訳): 大規模モデルの能力の評価とギャップの顕在化は困難である。
現在のベンチマークでは、静的データセットの基調に基づくスコア形式評価や、不明瞭なテキストチャットボットスタイルの人間の嗜好収集が採用されている。
本稿では,大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)を視覚的アニメーションで評価するための新しいフレームワークであるBioMotion Arenaを紹介する。
本手法は, 生体の動作パターンの視覚的知覚からインスピレーションを得て, 点光源イメージングを用いて, モデル間の性能の相違を増幅する。
具体的には,90の生物運動変種に対する53のLLMおよびMLLMに対して,ペアワイズ比較評価を行い,45k票以上を収集する。
データ分析によると、クラウドソーシングされた人間の票は専門家のレーナーの票と良好に一致しており、差別的なフィードバックを提供する上での私たちのBioMotion Arenaの優位性を示している。
また、最先端のオープンソースであるInternVL3やプロプライエタリなClaude-4シリーズを含む90%以上の評価モデルでは、基本的なヒューマノイド点光群を生成できず、より滑らかで生物学的に妥当な動作は得られない。
これにより、BioMotion Arenaは、パフォーマンスビジュアライゼーションのための挑戦的なベンチマークとして機能し、地道な制約なしに柔軟な評価フレームワークを提供することができる。
関連論文リスト
- Multimodal Foundation Model for Cross-Modal Retrieval and Activity Recognition Tasks [3.1976901430982063]
本研究では,3人称ビデオ,モーションキャプチャ,IMU,テキストの4つのモードを統合した基礎モデルを提案する。
第三者のビデオとモーションキャプチャーデータを組み込むことで、このモデルは人間の活動の詳細な多次元的理解を可能にする。
論文 参考訳(メタデータ) (2025-05-29T01:47:43Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language
Models [34.91372939329467]
MLLMの純粋推論能力を評価するためのベンチマークであるNPHardEval4Vを導入する。
異なるモデルにまたがる推論能力に有意な差が認められた。
また,視覚,テキスト,視覚とテキストの組み合わせがMLLMの推論能力に与える影響についても検討した。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。