論文の概要: TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2601.14951v1
- Date: Wed, 21 Jan 2026 12:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.36184
- Title: TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models
- Title(参考訳): TempViz:テキスト・画像モデルにおける時間的知識の評価について
- Authors: Carolin Holtermann, Nina Krebs, Anne Lauscher,
- Abstract要約: TempVizは、画像生成における時間的知識を階層的に評価する最初のデータセットである。
5つの時間的知識カテゴリにまたがる5つのT2Iモデルの能力について検討する。
人間の評価では、時間的能力は一般的に弱く、カテゴリーごとの精度は75%を超えない。
- 参考スコア(独自算出の注目度): 27.40006053562777
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Time alters the visual appearance of entities in our world, like objects, places, and animals. Thus, for accurately generating contextually-relevant images, knowledge and reasoning about time can be crucial (e.g., for generating a landscape in spring vs. in winter). Yet, although substantial work exists on understanding and improving temporal knowledge in natural language processing, research on how temporal phenomena appear and are handled in text-to-image (T2I) models remains scarce. We address this gap with TempViz, the first data set to holistically evaluate temporal knowledge in image generation, consisting of 7.9k prompts and more than 600 reference images. Using TempViz, we study the capabilities of five T2I models across five temporal knowledge categories. Human evaluation shows that temporal competence is generally weak, with no model exceeding 75% accuracy across categories. Towards larger-scale studies, we also examine automated evaluation methods, comparing several established approaches against human judgments. However, none of these approaches provides a reliable assessment of temporal cues - further indicating the pressing need for future research on temporal knowledge in T2I.
- Abstract(参考訳): 時間によって、物体、場所、動物といった世界における実体の視覚的外観が変化します。
したがって、文脈に関連のある画像を正確に生成するためには、時間についての知識と推論が重要である(例えば、春と冬の風景を生成するために)。
しかし、自然言語処理における時間的知識の理解と改善に関する重要な研究は存在するものの、時間的現象がどのように出現し、テキスト・ツー・イメージ(T2I)モデルで扱われるかの研究はほとんど残っていない。
このギャップに対処するTempVizは、画像生成における時間的知識を総合的に評価する最初のデータセットであり、7.9kプロンプトと600以上の参照画像からなる。
TempVizを用いて,5つの時間的知識カテゴリにまたがる5つのT2Iモデルの能力について検討した。
人間の評価では、時間的能力は一般的に弱く、カテゴリーごとの精度は75%を超えない。
大規模研究に向けて,人間の判断に対するいくつかの確立されたアプローチを比較し,自動評価手法についても検討した。
しかし、これらのアプローチはいずれも時間的手がかりの信頼性の高い評価を提供しておらず、さらにT2Iにおける時間的知識の今後の研究の必要性も示唆している。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models [27.280311932711847]
VITATECS, 診断用VIdeo-Text dAtasetについて述べる。
まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
論文 参考訳(メタデータ) (2023-11-29T07:15:34Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。