論文の概要: TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2601.14951v1
- Date: Wed, 21 Jan 2026 12:52:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.36184
- Title: TempViz: On the Evaluation of Temporal Knowledge in Text-to-Image Models
- Title(参考訳): TempViz:テキスト・画像モデルにおける時間的知識の評価について
- Authors: Carolin Holtermann, Nina Krebs, Anne Lauscher,
- Abstract要約: TempVizは、画像生成における時間的知識を階層的に評価する最初のデータセットである。
5つの時間的知識カテゴリにまたがる5つのT2Iモデルの能力について検討する。
人間の評価では、時間的能力は一般的に弱く、カテゴリーごとの精度は75%を超えない。
- 参考スコア(独自算出の注目度): 27.40006053562777
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Time alters the visual appearance of entities in our world, like objects, places, and animals. Thus, for accurately generating contextually-relevant images, knowledge and reasoning about time can be crucial (e.g., for generating a landscape in spring vs. in winter). Yet, although substantial work exists on understanding and improving temporal knowledge in natural language processing, research on how temporal phenomena appear and are handled in text-to-image (T2I) models remains scarce. We address this gap with TempViz, the first data set to holistically evaluate temporal knowledge in image generation, consisting of 7.9k prompts and more than 600 reference images. Using TempViz, we study the capabilities of five T2I models across five temporal knowledge categories. Human evaluation shows that temporal competence is generally weak, with no model exceeding 75% accuracy across categories. Towards larger-scale studies, we also examine automated evaluation methods, comparing several established approaches against human judgments. However, none of these approaches provides a reliable assessment of temporal cues - further indicating the pressing need for future research on temporal knowledge in T2I.
- Abstract(参考訳): 時間によって、物体、場所、動物といった世界における実体の視覚的外観が変化します。
したがって、文脈に関連のある画像を正確に生成するためには、時間についての知識と推論が重要である(例えば、春と冬の風景を生成するために)。
しかし、自然言語処理における時間的知識の理解と改善に関する重要な研究は存在するものの、時間的現象がどのように出現し、テキスト・ツー・イメージ(T2I)モデルで扱われるかの研究はほとんど残っていない。
このギャップに対処するTempVizは、画像生成における時間的知識を総合的に評価する最初のデータセットであり、7.9kプロンプトと600以上の参照画像からなる。
TempVizを用いて,5つの時間的知識カテゴリにまたがる5つのT2Iモデルの能力について検討した。
人間の評価では、時間的能力は一般的に弱く、カテゴリーごとの精度は75%を超えない。
大規模研究に向けて,人間の判断に対するいくつかの確立されたアプローチを比較し,自動評価手法についても検討した。
しかし、これらのアプローチはいずれも時間的手がかりの信頼性の高い評価を提供しておらず、さらにT2Iにおける時間的知識の今後の研究の必要性も示唆している。
関連論文リスト
- AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。
我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。
我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2025-09-19T16:41:39Z) - Towards Foundation Model on Temporal Knowledge Graph Reasoning [17.165969719351125]
時間的知識グラフ(TKG)は、時間的事実を4重形式(s, p, o, t)で格納する。
新しいモデルは、細粒度時間パターンを捉えるために正弦波位置符号化を用いる。
PostRAは、目に見えない時間的知識グラフに強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2025-06-04T09:19:49Z) - TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models [27.280311932711847]
VITATECS, 診断用VIdeo-Text dAtasetについて述べる。
まず、異なる時間的側面を理解するためのVidLMの能力を診断するために、自然言語における時間的概念のきめ細かい分類法を導入する。
特定の時間的側面においてのみ、オリジナルと異なる反実的な映像記述を生成する。
論文 参考訳(メタデータ) (2023-11-29T07:15:34Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Temporal Knowledge Graph Reasoning with Low-rank and Model-agnostic
Representations [1.8262547855491458]
低ランクテンソル分解モデル LowFER のパラメータ効率および時間認識拡張系である Time-LowFER を導入する。
時間を表現するための現在のアプローチのいくつかの制限に留意し、時間特徴に対するサイクル対応の時間符号化方式を提案する。
我々は,時間に敏感なデータ処理に着目した統合時間知識グラフ埋め込みフレームワークに本手法を実装した。
論文 参考訳(メタデータ) (2022-04-10T22:24:11Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。