論文の概要: T2MBench: A Benchmark for Out-of-Distribution Text-to-Motion Generation
- arxiv url: http://arxiv.org/abs/2602.13751v1
- Date: Sat, 14 Feb 2026 12:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.370687
- Title: T2MBench: A Benchmark for Out-of-Distribution Text-to-Motion Generation
- Title(参考訳): T2MBench: アウト・オブ・ディストリビューションのテキスト・ツー・モーション生成のためのベンチマーク
- Authors: Bin Yang, Rong Ou, Weisheng Xu, Jiaqi Xiong, Xintao Li, Taowen Wang, Luyu Zhu, Xu Jiang, Jing Tan, Renjing Xu,
- Abstract要約: OODテキスト・トゥ・モーション評価に特化して設計されたベンチマークを提案する。
我々は1025のテキスト記述からなるOODプロンプトデータセットを構築した。
実験結果から,テキスト・ツー・モーション・セマンティックアライメント,運動一般化性,身体的品質などの領域において,異なるベースラインモデルが強みを示すのに対し,ほとんどのモデルは細粒度精度評価による強靭な性能の達成に苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.46757980287966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing evaluations of text-to-motion generation focus on in-distribution textual inputs and a limited set of evaluation criteria, which restricts their ability to systematically assess model generalization and motion generation capabilities under complex out-of-distribution (OOD) textual conditions. To address this limitation, we propose a benchmark specifically designed for OOD text-to-motion evaluation, which includes a comprehensive analysis of 14 representative baseline models and the two datasets derived from evaluation results. Specifically, we construct an OOD prompt dataset consisting of 1,025 textual descriptions. Based on this prompt dataset, we introduce a unified evaluation framework that integrates LLM-based Evaluation, Multi-factor Motion evaluation, and Fine-grained Accuracy Evaluation. Our experimental results reveal that while different baseline models demonstrate strengths in areas such as text-to-motion semantic alignment, motion generalizability, and physical quality, most models struggle to achieve strong performance with Fine-grained Accuracy Evaluation. These findings highlight the limitations of existing methods in OOD scenarios and offer practical guidance for the design and evaluation of future production-level text-to-motion models.
- Abstract(参考訳): テキスト・トゥ・モーション・ジェネレーションの既存の評価は、複雑なアウト・オブ・ディストリビューション(OOD)テキストの条件下でモデル一般化とモーション生成能力を体系的に評価する能力を制限する、分散テキスト入力と限定された評価基準に重点を置いている。
この制限に対処するため,OODテキスト・トゥ・モーション評価に特化して設計されたベンチマークを提案し,14の代表的なベースラインモデルと評価結果から得られた2つのデータセットを包括的に分析する。
具体的には,1025のテキスト記述からなるOODプロンプトデータセットを構築する。
このプロンプトデータセットに基づいて,LLMに基づく評価,多要素動作評価,きめ細かな精度評価を統合した統合評価フレームワークを導入する。
実験結果から,テキスト・ツー・モーション・セマンティックアライメント,運動一般化性,身体的品質などの領域において,異なるベースラインモデルが強みを示すのに対し,ほとんどのモデルは細粒度精度評価による強靭な性能の達成に苦慮していることが明らかとなった。
これらの知見は、OODシナリオにおける既存の手法の限界を強調し、将来の生産レベルのテキスト・ツー・モーションモデルの設計と評価のための実践的なガイダンスを提供する。
関連論文リスト
- MEF: A Systematic Evaluation Framework for Text-to-Image Models [21.006921005280493]
現在の評価は、総合ランキングにELO、次元別スコアにMOSのいずれかに依存している。
我々は、T2Iモデルを評価するための体系的で実践的なアプローチであるマジック・アセスメント・フレームワーク(MEF)を紹介する。
評価フレームワークをリリースし,Magic-Bench-377を完全オープンソースにし,視覚生成モデルの評価研究を進めた。
論文 参考訳(メタデータ) (2025-09-22T15:32:42Z) - Objective Metrics for Evaluating Large Language Models Using External Data Sources [4.574672973076743]
本稿では,異なるセメータにまたがるクラステキスト資料から得られた主観的指標を活用するための枠組みを提案する。
このフレームワークは、スコアリングにおける自動化と透明性を強調し、人間の解釈への依存を減らす。
本手法は, 主観評価手法の限界に対処し, 教育, 科学, その他の高度な分野のパフォーマンス評価のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-01T02:24:19Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。
さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。
本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文 参考訳(メタデータ) (2024-07-29T03:37:14Z) - MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。
MATEval: "Multi-Agent Text Evaluation framework"を提案する。
本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文 参考訳(メタデータ) (2024-03-28T10:41:47Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。