論文の概要: EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection
- arxiv url: http://arxiv.org/abs/2603.00155v1
- Date: Wed, 25 Feb 2026 17:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.064505
- Title: EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection
- Title(参考訳): EfficientPosterGen:Token圧縮と正確な換気検出によるセマンティック・アウェアなポスター生成
- Authors: Wenxin Tang, Jingyu Xiao, Yanpei Gong, Fengyuan Ran, Tongchuan Xia, Junliang Liu, Man Ho Lam, Wenxuan Wang, Michael R. Lyu,
- Abstract要約: EfficientPosterGenは、学術ポスターの自動生成のためのエンドツーエンドフレームワークである。
セマンティックアウェア検索とトークン効率のマルチモーダル生成を導入している。
トークンの効率とレイアウトの信頼性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 31.15442597866692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated academic poster generation aims to distill lengthy research papers into concise, visually coherent presentations. Existing Multimodal Large Language Models (MLLMs) based approaches, however, suffer from three critical limitations: low information density in full-paper inputs, excessive token consumption, and unreliable layout verification. We present EfficientPosterGen, an end-to-end framework that addresses these challenges through semantic-aware retrieval and token-efficient multimodal generation. EfficientPosterGen introduces three core innovations: (1) Semantic-aware Key Information Retrieval (SKIR), which constructs a semantic contribution graph to model inter-segment relationships and selectively preserves important content; (2) Visual-based Context Compression (VCC), which renders selected text segments into images to shift textual information into the visual modality, significantly reducing token usage while generating poster-ready bullet points; and (3) Agentless Layout Violation Detection (ALVD), a deterministic color-gradient-based algorithm that reliably detects content overflow and spatial sparsity without auxiliary MLLMs. Extensive experiments demonstrate that EfficientPosterGen achieves substantial improvements in token efficiency and layout reliability while maintaining high poster quality, offering a scalable solution for automated academic poster generation. Our code is available at https://github.com/vinsontang1/EfficientPosterGen-Code.
- Abstract(参考訳): 学術ポスターの自動作成は、長い研究論文を簡潔で視覚的に整合したプレゼンテーションに蒸留することを目的としている。
しかし、既存のマルチモーダル大言語モデル(MLLM)ベースのアプローチは、フルペーパー入力における情報密度の低さ、過剰なトークン消費、信頼性の低いレイアウト検証の3つの限界に悩まされている。
EfficientPosterGenは、セマンティック・アウェア・検索とトークン効率の良いマルチモーダル・ジェネレーションを通じて、これらの課題に対処するエンドツーエンド・フレームワークである。
EfficientPosterGenは、(1)セマンティック・アウェア・キー情報検索(SKIR)、(2)セグメンテーション関係をモデル化し、重要なコンテンツを選択的に保存するためのセマンティック・コントリビューション・グラフを構築する、(2)テキストセグメントを画像にレンダリングしてテキスト情報を視覚的モダリティにシフトする視覚的コンテキスト圧縮(VCC)、(3)Agenless Layout Violation Detection(ALVD)、(3)Agenless Layout Violation Detection(ALVD)の3つの中心的イノベーションを紹介している。
広範な実験により、EfficientPosterGenは、高いポスター品質を維持しながら、トークン効率とレイアウトの信頼性を大幅に向上し、学術的ポスターの自動生成のためのスケーラブルなソリューションを提供する。
私たちのコードはhttps://github.com/vinsontang1/EfficientPosterGen-Codeで利用可能です。
関連論文リスト
- CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.88471147281406]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。
コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。
本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (2026-01-29T04:47:27Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization [7.769156392417315]
鍵情報抽出は、視覚文書の理解の基盤となる。
既存のマルチモーダルな大言語モデル (MLLM) は、高密度な文書ではよく機能しない。
本稿では,空間領域検出と意味的特徴抽出を分離するMLLMであるVDInstructを紹介する。
論文 参考訳(メタデータ) (2025-07-13T08:15:11Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。