論文の概要: Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations
- arxiv url: http://arxiv.org/abs/2510.05571v1
- Date: Tue, 07 Oct 2025 04:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.098952
- Title: Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations
- Title(参考訳): 論文の提示は芸術である:学術的プレゼンテーションのための自己改善的美的エージェント
- Authors: Chengzhi Liu, Yuzhe Yang, Kaiwen Zhou, Zhen Zhang, Yue Fan, Yannan Xie, Peng Qi, Xin Eric Wang,
- Abstract要約: textbfEvoPresentは学術論文のための自己改善エージェントフレームワークである。
コヒーレントな物語、美的デザイン、バーチャルキャラクタによるリアルなプレゼンテーション配信を統一する。
EvoPresentの中心は、マルチタスク強化学習(RL)美学モデルである textbfPresAesth である。
- 参考スコア(独自算出の注目度): 44.89290633775945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The promotion of academic papers has become an important means of enhancing research visibility. However, existing automated methods struggle limited storytelling, insufficient aesthetic quality, and constrained self-adjustment, making it difficult to achieve efficient and engaging dissemination. At the heart of those challenges is a simple principle: \emph{there is no way to improve it when you cannot evaluate it right}. To address this, we introduce \textbf{EvoPresent}, a self-improvement agent framework that unifies coherent narratives, aesthetic-aware designs, and realistic presentation delivery via virtual characters. Central to EvoPresent is \textbf{PresAesth}, a multi-task reinforcement learning (RL) aesthetic model that provides reliable aesthetic scoring, defect adjustment, and comparative feedback, enabling iterative self-improvement even under limited aesthetic training data. To systematically evaluate the methods, we introduce \textbf{EvoPresent Benchmark}, a comprehensive benchmark comprising: \textit{Presentation Generation Quality}, built on 650 top-tier AI conference papers with multimodal resources (slides, videos and scripts) to assess both content and design; and \textit{Aesthetic Awareness}, consisting of 2,000 slide pairs with varying aesthetic levels, supporting joint training and evaluation on scoring, defect adjustment, and comparison. Our findings highlight that (i) High-quality feedback is essential for agent self-improvement, while initial capability alone does not guarantee effective self-correction. (ii) Automated generation pipelines exhibit a trade-off between visual design and content construction. (iii) Multi-task RL training shows stronger generalization in aesthetic awareness tasks.
- Abstract(参考訳): 学術論文の振興は研究の可視性を高める重要な手段となっている。
しかし、既存の自動化手法は、ストーリーテリングの制限、美的品質の不足、自己調整の制約に苦しむため、効率的で魅力的な普及が困難である。
これらの課題の核心は、単純な原則である: \emph{there は、正しく評価できないときに改善する方法がない。
これを解決するために,コヒーレントな物語,美的デザイン,バーチャルキャラクタによるリアルなプレゼンテーション配信を統一する自己改善エージェントフレームワークである \textbf{EvoPresent} を紹介した。
EvoPresentの中心となるのは、マルチタスク強化学習(RL)の美学モデルである \textbf{PresAesth} である。
提案手法を体系的に評価するために,次のような総合ベンチマークである \textbf{EvoPresent Benchmark} を紹介した。コンテンツと設計の両方を評価するために,マルチモーダルリソース(スライド,ビデオ,スクリプト)を備えた上位650階層のAI会議論文上に構築された \textit{Presentation Generation Quality} と,さまざまな美的レベルを持つ2,000のスライドペアからなる \textit{Aesthetic Awareness} は,共同トレーニングと評価をサポートし,評価,欠陥調整,比較を行う。
私たちの発見は
一 エージェント自己改善には高品質なフィードバックが不可欠であるが、初期能力だけでは効果的な自己補正は保証されない。
(II)自動生成パイプラインは、ビジュアルデザインとコンテンツ構築のトレードオフを示す。
3) マルチタスクRLトレーニングは, 審美意識のタスクにおいて, より高度な一般化を示す。
関連論文リスト
- Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-09T14:14:02Z) - Advancing Comprehensive Aesthetic Insight with Multi-Scale Text-Guided Self-Supervised Learning [14.405750888492735]
Image Aesthetic Assessment (IAA) は、画像の美的価値を分析し評価する作業である。
IAAの伝統的な手法は、しばしば単一の美的タスクに集中し、ラベル付きデータセットが不十分である。
審美的洞察をニュアンス化した総合的審美的MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-16T16:35:35Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [47.207432606050105]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
本稿では,2つのタスクから有用で一般的な表現を抽出するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - TaCo: Textual Attribute Recognition via Contrastive Learning [9.042957048594825]
TaCoは、最も一般的な文書シーンに適したテキスト属性認識のための対照的なフレームワークである。
1)属性ビューの生成,2)微妙だが重要な詳細の抽出,3)学習のための価値あるビューペアの利用,の3つの視点から学習パラダイムを設計する。
実験によると、TaCoは監督対象を超越し、複数の属性認識タスクにおいて最先端の技術を著しく向上している。
論文 参考訳(メタデータ) (2022-08-22T09:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。