論文の概要: Animation Needs Attention: A Holistic Approach to Slides Animation Comprehension with Visual-Language Models
- arxiv url: http://arxiv.org/abs/2507.03916v2
- Date: Wed, 09 Jul 2025 07:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 13:22:10.059288
- Title: Animation Needs Attention: A Holistic Approach to Slides Animation Comprehension with Visual-Language Models
- Title(参考訳): アニメーションの注意:視覚言語モデルを用いたスライドアニメーション理解への全体的アプローチ
- Authors: Yifan Jiang, Yibo Xue, Yukun Kang, Pin Zheng, Jian Peng, Feiran Wu, Changliang Xu,
- Abstract要約: スライド言語モデリングのための最初の公開データセットをリリースした。12,000の自然言語記述、アニメーションファイル、レンダリングビデオである。
低ランク適応(LoRA)でQwen-2.5-VL-7Bを微調整し,GPT-4.1とGemini-2.5-Proを一貫した改良を実現した。
- 参考スコア(独自算出の注目度): 10.04520071182626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Slide animations, such as fade-in, fly-in, and wipe, are critical for audience engagement, efficient information delivery, and vivid visual expression. However, most AI-driven slide-generation tools still lack native animation support, and existing vision-language models (VLMs) struggle with animation tasks due to the absence of public datasets and limited temporal-reasoning capabilities. To address this gap, we release the first public dataset for slide-animation modeling: 12,000 triplets of natural-language descriptions, animation JSON files, and rendered videos, collectively covering every built-in PowerPoint effect. Using this resource, we fine-tune Qwen-2.5-VL-7B with Low-Rank Adaptation (LoRA) and achieve consistent improvements over GPT-4.1 and Gemini-2.5-Pro in BLEU-4, ROUGE-L, SPICE, and our Coverage-Order-Detail Assessment (CODA) metric, which evaluates action coverage, temporal order, and detail fidelity. On a manually created test set of slides, the LoRA model increases BLEU-4 by around 60%, ROUGE-L by 30%, and shows significant improvements in CODA-detail. This demonstrates that low-rank adaptation enables reliable temporal reasoning and generalization beyond synthetic data. Overall, our dataset, LoRA-enhanced model, and CODA metric provide a rigorous benchmark and foundation for future research on VLM-based dynamic slide generation.
- Abstract(参考訳): フェードイン、フライイン、ワイプなどのスライドアニメーションは、観客のエンゲージメント、効率的な情報配信、鮮明な視覚表現に不可欠である。
しかし、AI駆動のスライド生成ツールの多くは、まだネイティブなアニメーションサポートが欠けており、既存のビジョン言語モデル(VLM)は、パブリックデータセットの欠如と時間的推論能力の制限により、アニメーションタスクに苦労している。
このギャップに対処するため、スライドアニメーションモデリングのための最初のパブリックデータセットをリリースしました。自然言語記述、JSONファイルのアニメーション、レンダリングビデオの12,000のトリプルで、すべてのPowerPointエフェクトをまとめてカバーします。
この資源を用いて低ランク適応 (LoRA) を用いたQwen-2.5-VL-7Bを微調整し, BLEU-4, ROUGE-L, SPICEおよびCODAのGPT-4.1およびGemini-2.5-Proに対する一貫した改善を実現し, 行動カバレッジ, 時間秩序, 詳細忠実度を評価する。
手動で作成したスライドでは、LORAモデルはBLEU-4を約60%、ROUGE-Lを30%増加させ、CODAディーテールを大幅に改善した。
このことは、低ランク適応は、合成データを超えた信頼性のある時間的推論と一般化を可能にすることを証明している。
全体として、我々のデータセット、LoRA強化モデル、CODAメトリクスは、VLMベースの動的スライド生成の将来の研究のための厳密なベンチマークと基礎を提供する。
関連論文リスト
- LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning [1.820765907065129]
現在の視覚言語モデル(VLM)は、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、得られたLLaVA-Poseモデルをベンチマーク上で評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2025-06-26T14:32:56Z) - CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。
CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation [57.199352741915625]
本稿では,任意の3Dメッシュの効率的なテキスト駆動アニメーションを可能にする最初のフィードフォワードフレームワークであるAnimateAnyMeshを紹介する。
我々のアプローチは、動的メッシュシーケンスを効果的に圧縮し再構成する新しいDyMeshVAEアーキテクチャを活用する。
また、DyMeshデータセットにもコントリビュートし、テキストアノテーション付き4M以上の動的メッシュシーケンスを格納しています。
論文 参考訳(メタデータ) (2025-06-11T17:55:16Z) - Is Temporal Prompting All We Need For Limited Labeled Action Recognition? [11.47868206641396]
コアCLIPアーキテクチャを変更することなく、時間的視覚的プロンプトを利用して時間的適応を行うCLIPの適応であるTP-CLIPを提案する。
TP-CLIPはCLIPアーキテクチャに効率的に統合され、ビデオデータに事前トレーニングされた機能を活用する。
論文 参考訳(メタデータ) (2025-04-02T16:50:28Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [52.16008431411513]
LASERは、チューニング不要のLCM駆動のアテンションコントロールフレームワークである。
テキスト条件付きイメージ・トゥ・アニメーションベンチマークを提案し,その有効性と有効性を検証する。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。