論文の概要: CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation
- arxiv url: http://arxiv.org/abs/2604.10918v1
- Date: Mon, 13 Apr 2026 02:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.28182
- Title: CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation
- Title(参考訳): CSPO:Structured Table-to-LaTeX 生成における逆曖昧性を軽減する
- Authors: Yunfan Yang, Cuiling Lan, Jitao Sang, Yan Lu,
- Abstract要約: 本稿では, コンポーネント構造, スタイル, コンテント間の最適化を両立させるフレームワークCSPOを提案する。
CSPOはコンポーネント固有の報酬を割り当て、各シグナルをそのコンポーネントに関連するトークンを通してのみバックプロパゲーションする。
- 参考スコア(独自算出の注目度): 45.77327540645401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tables contain rich structured information, yet when stored as images their contents remain "locked" within pixels. Converting table images into LaTeX code enables faithful digitization and reuse, but current multimodal large language models (MLLMs) often fail to preserve structural, style, or content fidelity. Conventional post-training with reinforcement learning (RL) typically relies on a single aggregated reward, leading to reward ambiguity that conflates multiple behavioral aspects and hinders effective optimization. We propose Component-Specific Policy Optimization (CSPO), an RL framework that disentangles optimization across LaTeX tables components-structure, style, and content. In particular, CSPO assigns component-specific rewards and backpropagates each signal only through the tokens relevant to its component, alleviating reward ambiguity and enabling targeted component-wise optimization. To comprehensively assess performance, we introduce a set of hierarchical evaluation metrics. Extensive experiments demonstrate the effectiveness of CSPO, underscoring the importance of component-specific optimization for reliable structured generation.
- Abstract(参考訳): テーブルにはリッチな構造化情報が含まれているが、画像として保存された場合、その内容はピクセル内で「ロック」される。
テーブルイメージをLaTeXコードに変換することで、忠実なデジタル化と再利用が可能になるが、現在のマルチモーダルな大規模言語モデル(MLLM)は構造、スタイル、内容の忠実さを維持できないことが多い。
従来の強化学習(RL)によるポストトレーニングは、一般的に1つのアグリゲートされた報酬に依存しており、複数の行動的側面を混在させ、効果的な最適化を妨げている。
本稿では,LLフレームワークであるCSPO(Component-Specific Policy Optimization)を提案する。
特にCSPOは、コンポーネント固有の報酬を割り当て、各シグナルをそのコンポーネントに関連するトークンを通してのみバックプロパゲートし、報酬のあいまいさを緩和し、ターゲットコンポーネントの最適化を可能にする。
性能を総合的に評価するために,一連の階層的評価指標を導入する。
大規模実験はCSPOの有効性を示し、信頼性の高い構造生成のためのコンポーネント固有の最適化の重要性を強調している。
関連論文リスト
- BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。