論文の概要: Look before Transcription: End-to-End SlideASR with Visually-Anchored Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.08618v1
- Date: Wed, 08 Oct 2025 08:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.205395
- Title: Look before Transcription: End-to-End SlideASR with Visually-Anchored Policy Optimization
- Title(参考訳): 転写前を見てみよう:ビジュアルアンコールポリシー最適化によるエンドツーエンドのSlideASR
- Authors: Rui Hu, Delai Qiu, Yining Wang, Shengping Liu, Jitao Sang,
- Abstract要約: モデル推論過程を制御するために,ビジュアルアンコールポリシー最適化(VAPO)を提案する。
VAPO は think>answer> フォーマットを使用して構造化された "Look before Transcription" プロシージャを強制する。
この推論プロセスは、フォーマットコンプライアンス、OCR精度、ASR品質、視覚的アンカー一貫性を目標とした4つの異なる報酬を含む強化学習によって最適化される。
- 参考スコア(独自算出の注目度): 28.984638316524464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems often struggle with domain-specific terminology, especially in specialized settings such as academic lectures. To address this, we define the SlideASR task, which leverages the rich visual information from presentation slides to improve transcription accuracy. Existing pipeline methods for this task tend to be complex and underperform. Although omni-modal large language models (OLLMs) provide a promising end-to-end framework, they frequently fail in practice by degenerating into simple optical character recognition (OCR) systems. To overcome this, we propose Visually-Anchored Policy Optimization (VAPO), a novel post-training method designed to control the model's reasoning process. Drawing on the Chain-of-Thought reasoning paradigm, VAPO enforces a structured "Look before Transcription" procedure using a <think><answer> format. Specifically, the model first performs OCR on the slide content within the think step, then generates the transcription by referencing this recognized visual information in the answer step. This reasoning process is optimized via reinforcement learning with four distinct rewards targeting format compliance, OCR accuracy, ASR quality, and visual anchoring consistency. To support further research, we construct SlideASR-Bench, a new entity-rich benchmark consisting of a synthetic dataset for training and testing, and a challenging real-world set for evaluation. Extensive experiments demonstrate that VAPO significantly improves recognition of domain-specific terms, establishing an effective end-to-end paradigm for SlideASR.
- Abstract(参考訳): 自動音声認識(ASR)システムは、特に学術講義のような特殊な環境で、ドメイン固有の用語に苦しむことが多い。
これを解決するために、プレゼンテーションスライドからリッチな視覚情報を活用して転写精度を向上させるSlideASRタスクを定義した。
このタスクの既存のパイプラインメソッドは複雑でパフォーマンスが悪い傾向があります。
オムニモーダルな大言語モデル(OLLM)は有望なエンドツーエンドのフレームワークを提供するが、単純な光学文字認識(OCR)システムに分解することで実際に失敗することが多い。
これを解決するために,モデルの推論プロセスを制御するための新しいポストトレーニング手法であるVisually-Anchored Policy Optimization (VAPO)を提案する。
VAPOはChain-of-Thought推論パラダイムに基づいて、<think><answer>フォーマットを使用して構造化された"Look before Transcription"プロシージャを強制する。
具体的には、モデルがまず思考ステップ内のスライドコンテンツ上でOCRを実行し、その認識された視覚情報を回答ステップで参照して書き起こしを生成する。
この推論プロセスは、フォーマットコンプライアンス、OCR精度、ASR品質、視覚的アンカー一貫性を目標とした4つの異なる報酬を含む強化学習によって最適化される。
さらなる研究を支援するために,SlideASR-Benchを構築した。SlideASR-Benchは,トレーニングとテストのための合成データセットと,評価のための挑戦的な実世界セットで構成される新しいエンティティリッチなベンチマークである。
大規模な実験によりVAPOはドメイン固有項の認識を大幅に改善し、SlideASRの効果的なエンドツーエンドパラダイムを確立した。
関連論文リスト
- CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。
我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-06-26T05:28:57Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAG-ReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Gradient-Regulated Meta-Prompt Learning for Generalizable
Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。
パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。
GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-03-12T05:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。