Fugu-MT 論文翻訳(概要): Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations

論文の概要: Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations

arxiv url: http://arxiv.org/abs/2604.26148v1
Date: Tue, 28 Apr 2026 22:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.188292
Title: Beyond Screenshots: Evaluating VLMs' Understanding of UI Animations
Title（参考訳）: スクリーンショットを超えて - VLMのUIアニメーション理解を評価する
Authors: Chen Liang, Xirui Jiang, Naihao Deng, Eytan Adar, Anhong Guo,
Abstract要約: アニメーションは現代のインターフェースでますます使われ、単なる美学を超えた重要な機能的目的に役立っている。 UI理解のための視覚言語モデル(VLM)の最近の研究は、主に静的スクリーンショットに焦点を当てている。 AniMINTは、300の高精細な注釈付きUIアニメーションビデオからなる、新しいデータセットです。アニメーション効果を理解し,アニメーションの目的を識別し,アニメーションの意味を解釈する能力を含む,UIアニメーション理解における最先端のVLMを体系的に評価する。
参考スコア（独自算出の注目度）: 20.549856260809577
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI agents operating on user interfaces must understand how interfaces communicate state and feedback to act reliably. As a core communicative modality, animations are increasingly used in modern interfaces, serving critical functional purposes beyond mere aesthetics. Thus, understanding UI animation is essential for comprehensive interface interpretation. However, recent studies of Vision Language Models (VLMs) for UI understanding have focused primarily on static screenshots, leaving it unclear how well these models handle dynamic UI animations. To address this gap, we created AniMINT, a novel dataset of 300 densely annotated UI animation videos. We systematically evaluate state-of-the-art VLMs on UI animation understanding, including their abilities to perceive the animation effects, identify animation purposes, and interpret animation meaning. Our results show that VLMs can reliably detect primitive motion. However, their high-level animation interpretation remains inconsistent, with substantial gaps relative to human performance. Finally, we use Motion, Context, and Perceptual Cues (MCPC) to probe factors affecting VLM performance, revealing key bottlenecks and directions for future improvement.
Abstract（参考訳）: ユーザインターフェースで動作するAIエージェントは、インターフェースが状態とフィードバックを確実に動作させる方法を理解する必要がある。中核的なコミュニケーションのモダリティとして、アニメーションは現代のインターフェースでますます使われ、単なる美学を超えた重要な機能的目的に役立っている。したがって、UIアニメーションを理解することは、包括的なインターフェイス解釈に不可欠である。しかし、近年のUI理解のためのビジョン言語モデル(VLM)の研究は、静的スクリーンショットに重点を置いており、これらのモデルが動的UIアニメーションをどのように扱うかは明らかになっていない。このギャップに対処するため、300の高密度注釈付きUIアニメーションビデオからなる新しいデータセットであるAniMINTを作成しました。アニメーション効果を理解し,アニメーションの目的を識別し,アニメーションの意味を解釈する能力を含む,UIアニメーション理解における最先端のVLMを体系的に評価する。以上の結果から,VLMはプリミティブ動作を確実に検出できることがわかった。しかし、そのハイレベルなアニメーションの解釈は、人間のパフォーマンスとはかなりの差があるため、相容れないままである。最後に、Motion, Context, and Perceptual Cues (MCPC)を用いて、VLMのパフォーマンスに影響する要因を探索し、将来の改善のための重要なボトルネックと方向性を明らかにする。

関連論文リスト

LSF-Animation: Label-Free Speech-Driven Facial Animation via Implicit Feature Representation [37.790140423936776]
明示的な感情やアイデンティティの特徴表現への依存を解消する新しいフレームワークであるLSF-Animationを提案する。具体的には、LSFアニメーションは、音声から感情情報を暗黙的に抽出し、中立的な顔メッシュから識別特徴をキャプチャする。本手法は,感情表現性,アイデンティティの一般化,アニメーションリアリズムの観点から,近年の最先端アプローチを超越した手法である。
論文参考訳（メタデータ） (2025-10-23T10:09:24Z)
Animate-X++: Universal Character Image Animation with Dynamic Backgrounds [32.04255747303296]
Animate-X++は、擬人化文字を含む様々な文字タイプ向けのDiTに基づく普遍的なアニメーションフレームワークである。動作表現を強化するために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。第2の課題として、アニメーションとTI2Vタスクを共同でトレーニングするマルチタスクトレーニング戦略を導入する。
論文参考訳（メタデータ） (2025-08-13T03:11:28Z)
VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis [70.76837748695841]
視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。 MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
論文参考訳（メタデータ） (2025-07-08T15:04:17Z)
Learning to Animate Images from A Few Videos to Portray Delicate Human Actions [80.61838364885482]
ビデオ生成モデルは、人間の繊細なアクションを描写するビデオに静的イメージをアニメーション化するのに依然として苦労している。本稿では,映像をアニメーション化し,微妙な人間の行動を表現するための学習課題について,少数のビデオを用いて検討する。本研究では、他の動画の動画特徴とフレーム間の対応を利用して、モデルに映像の再構成を強制することで、一般化可能な動きパターンを学習するFLASHを提案する。
論文参考訳（メタデータ） (2025-03-01T01:09:45Z)
AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs [54.58905728115257]
そこで本稿では,UI要素に詳細な機能記述を自動アノテートする textbfAutoGUI パイプラインを提案する。提案したパイプラインを用いて高品質なAutoGUI-704kデータセットを構築し,多種多様な機能アノテーションを特徴とする。我々のデータセットは、VLMのUIグラウンド機能を大幅に強化し、大きなスケーリング効果を示す。
論文参考訳（メタデータ） (2025-02-04T03:39:59Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
A Robust Interactive Facial Animation Editing System [0.0]
直感的な制御パラメータの集合から顔のアニメーションを簡単に編集するための学習に基づく新しいアプローチを提案する。我々は、制御パラメータを結合係数列にマップする分解能保存完全畳み込みニューラルネットワークを使用している。提案システムは頑丈で,非専門ユーザからの粗大で誇張された編集を処理できる。
論文参考訳（メタデータ） (2020-07-18T08:31:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。