論文の概要: FMBench: Adaptive Large Language Model Output Formatting
- arxiv url: http://arxiv.org/abs/2602.06384v1
- Date: Fri, 06 Feb 2026 04:42:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.236566
- Title: FMBench: Adaptive Large Language Model Output Formatting
- Title(参考訳): FMBench: 適応型大規模言語モデルの出力フォーマット
- Authors: Yaoting Wang, Yun Zhou, Henghui Ding,
- Abstract要約: 適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。
2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。
結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
- 参考スコア(独自算出の注目度): 49.52930069696333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Producing outputs that satisfy both semantic intent and format constraints is essential for deploying large language models in user-facing and system-integrated workflows. In this work, we focus on Markdown formatting, which is ubiquitous in assistants, documentation, and tool-augmented pipelines but still prone to subtle, hard-to-detect errors (e.g., broken lists, malformed tables, inconsistent headings, and invalid code blocks) that can significantly degrade downstream usability. We present FMBench, a benchmark for adaptive Markdown output formatting that evaluates models under a wide range of instruction-following scenarios with diverse structural requirements. FMBench emphasizes real-world formatting behaviors such as multi-level organization, mixed content (natural language interleaved with lists/tables/code), and strict adherence to user-specified layout constraints. To improve Markdown compliance without relying on hard decoding constraints, we propose a lightweight alignment pipeline that combines supervised fine-tuning (SFT) with reinforcement learning fine-tuning. Starting from a base model, we first perform SFT on instruction-response pairs, and then optimize a composite objective that balances semantic fidelity with structural correctness. Experiments on two model families (OpenPangu and Qwen) show that SFT consistently improves semantic alignment, while reinforcement learning provides additional gains in robustness to challenging Markdown instructions when initialized from a strong SFT policy. Our results also reveal an inherent trade-off between semantic and structural objectives, highlighting the importance of carefully designed rewards for reliable formatted generation. Code is available at: https://github.com/FudanCVL/FMBench.
- Abstract(参考訳): ユーザ対応およびシステム統合ワークフローに大規模な言語モデルをデプロイするためには、セマンティックインテントとフォーマット制約の両方を満たすアウトプットの生成が不可欠である。
この作業では、アシスタント、ドキュメンテーション、ツール拡張パイプラインでユビキタスなMarkdownフォーマッティングに重点を置いていますが、それでも微妙で、検出が難しいエラー(例えば、壊れたリスト、不正なテーブル、一貫性のない見出し、無効なコードブロック)は、下流のユーザビリティを著しく低下させます。
FMBenchは適応型マークダウン出力フォーマッティングのベンチマークであり、多様な構造要件を持つ幅広い命令追従シナリオ下でモデルを評価する。
FMBenchは、マルチレベルな組織、混成コンテンツ(リスト/テーブル/コードでインターリーブされた自然言語)、ユーザの指定したレイアウト制約への厳格な準拠など、現実的なフォーマット行動を強調している。
ハードデコード制約に頼らずにマークダウンコンプライアンスを改善するために,教師付き微調整(SFT)と強化学習微調整を組み合わせた軽量アライメントパイプラインを提案する。
ベースモデルから始めて、まず命令応答対上でSFTを行い、次に、意味的忠実度と構造的正しさのバランスをとる合成目的を最適化する。
2つのモデルファミリー(OpenPanguとQwen)の実験では、SFTはセマンティックアライメントを一貫して改善する一方、強化学習は強力なSFTポリシーから初期化されるとき、マークダウン命令に挑戦するための堅牢性をさらに向上させる。
また, セマンティックな目的と構造的な目的のトレードオフを明らかにし, 信頼性の高い書式生成において, 慎重に設計された報酬の重要性を強調した。
コードは、https://github.com/FudanCVL/FMBench.comで入手できる。
関連論文リスト
- FocalOrder: Focal Preference Optimization for Reading Order Detection [23.497081928689525]
我々はtextbfFocal Preference Optimization (FPO) によって駆動されるフレームワーク textbfFocalOrder を提案する。
FocalOrderは適応的難易度発見と指数的な移動平均機構を用いて動的にピンポイントのハード・ツー・ラーン遷移を行う。
FocalOrder は OmniDocBench v1.0 と Comp-HRDoc で新しい最先端の結果を確立する。
論文 参考訳(メタデータ) (2026-01-12T12:37:04Z) - AdaFuse: Adaptive Ensemble Decoding with Test-Time Scaling for LLMs [46.52320938421707]
推論時のアンサンブルは、大規模な言語モデル機能を再訓練せずに組み合わせる実用的な方法を提供する。
生成時に意味的に適切な融合単位を動的に選択する適応型アンサンブルデコーディングフレームワークであるAdaFuseを提案する。
AdaFuseは一貫して強力なアンサンブルベースラインを上回り、6.88%の平均的な相対的な改善を達成している。
論文 参考訳(メタデータ) (2026-01-09T18:58:22Z) - RL-Struct: A Lightweight Reinforcement Learning Framework for Reliable Structured Output in LLMs [0.08594140167290097]
大規模言語モデル(LLM)は、自然言語の生成と推論において顕著な能力を示した。
自動化されたソフトウェアエコシステムへの統合は、しばしば"構造ギャップ"によって妨げられます。
このギャップを埋めるための軽量で効率的な強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-29T04:47:14Z) - The Price of Format: Diversity Collapse in LLMs [32.616432249190716]
大きな言語モデル(LLM)は、推論中にフォーマットの一貫性を強制するためにロールマーカーや特別なトークンのような構造化テンプレートを使用する。
我々は,この効果をストーリー補完やフリーフォーム生成といったタスクにわたって体系的に評価し,高温サンプリングにおいても多様性の崩壊が持続することを示した。
これらの知見を文脈化するために、構造化されたプロンプトを用いて同じモデルを微調整し、下流タスク性能、アライメント行動、出力多様性の3つの軸で評価する。
論文 参考訳(メタデータ) (2025-05-25T02:52:35Z) - Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
本研究では,コンテキストbfTextualized equivaritextbfAnt textbfPosition textbfEncoding(textbfTAPE)を提案する。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文 参考訳(メタデータ) (2025-01-01T03:23:00Z) - HySem: A context length optimized LLM pipeline for unstructured tabular extraction [0.0]
本稿では,HTMLテーブルから正確な意味表現を生成するために,コンテキスト長最適化技術を用いたパイプラインHySemを紹介する。
HySemはコモディティハードウェア上で動作し、オープンソースモデルの精度を上回り、OpenAI GPT-4oとベンチマークした場合に競合するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-08-18T10:40:37Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。