論文の概要: Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs
- arxiv url: http://arxiv.org/abs/2603.29232v1
- Date: Tue, 31 Mar 2026 04:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.134464
- Title: Long-Document QA with Chain-of-Structured-Thought and Fine-Tuned SLMs
- Title(参考訳): 構造整合型および微細加工型SLMを用いた長期文書QA
- Authors: Zhuowen Liang, Xiaotian Lin, Zhengxuan Zhang, Yuyu Luo, Haixun Wang, Nan Tang,
- Abstract要約: 大規模言語モデル(LLM)は、ドキュメント上のデータ分析に広く適用されているが、長期間にわたってノイズの多いドキュメントの直接的な推論は、脆弱でエラーを起こしやすいままである。
小型言語モデル(SLM)を用いて,高精度かつ低レイテンシを実現するための2ピラーフレームワークLiteCoSTを提案する。
- 参考スコア(独自算出の注目度): 15.488953497866525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are widely applied to data analytics over documents, yet direct reasoning over long, noisy documents remains brittle and error-prone. Hence, we study document question answering (QA) that consolidates dispersed evidence into a structured output (e.g., a table, graph, or chunks) to support reliable, verifiable QA. We propose a two-pillar framework, LiteCoST, to achieve both high accuracy and low latency with small language models (SLMs). Pillar 1: Chain-of-Structured-Thought (CoST). We introduce a CoST template, a schema-aware instruction that guides a strong LLM to produce both a step-wise CoST trace and the corresponding structured output. The process induces a minimal structure, normalizes entities/units, aligns records, serializes the output, and verifies/refines it, yielding auditable supervision. Pillar 2: SLM fine-tuning. The compact models are trained on LLM-generated CoST data in two stages: Supervised Fine-Tuning for structural alignment, followed by Group Relative Policy Optimization (GRPO) incorporating triple rewards for answer/format quality and process consistency. By distilling structure-first behavior into SLMs, this approach achieves LLM-comparable quality on multi-domain long-document QA using 3B/7B SLMs, while delivering 2-4x lower latency than GPT-4o and DeepSeek-R1 (671B). The code is available at https://github.com/HKUSTDial/LiteCoST.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドキュメント上のデータ分析に広く適用されているが、長期間にわたってノイズの多いドキュメントの直接的な推論は、脆弱でエラーを起こしやすいままである。
そこで我々は,分散証拠を構造化された出力(例えば,テーブル,グラフ,チャンク)に集約し,信頼性,検証可能なQAを支援する文書質問応答(QA)について検討する。
小型言語モデル(SLM)を用いて,高精度かつ低レイテンシを実現するための2ピラーフレームワークLiteCoSTを提案する。
Pillar 1: Chain-of-Structured-Thought (CoST)。
我々は、強力なLCMを誘導し、ステップワイズなCoSTトレースと、それに対応する構造化された出力を生成するスキーマ対応命令であるCoSTテンプレートを導入する。
このプロセスは最小限の構造を導き、エンティティ/ユニットを正規化し、レコードをアライメントし、出力をシリアライズし、それを検証/修正し、監査可能な監視を与える。
Pillar 2: SLMファインチューニング。
コンパクトモデルは、LLM生成のCoSTデータに基づいて2段階に分けて訓練される: 構造整合のための細調整の監督、そして、応答/形式品質とプロセス整合性の3倍の報酬を含むグループ相対ポリシー最適化(GRPO)。
構造優先の動作をSLMに蒸留することにより,GPT-4oやDeepSeek-R1(671B)よりも2-4倍のレイテンシを実現し,マルチドメイン長文書QAにおいてLLMに比較可能な品質を実現する。
コードはhttps://github.com/HKUSTDial/LiteCoSTで入手できる。
関連論文リスト
- Self-Correction Distillation for Structured Data Question Answering [50.98882432829651]
小型言語モデル(LLM)は、構造化クエリの生成時にエラーを起こしやすい。
小型LCMの構造データQA能力を向上させるための自己補正蒸留(SCD)法を提案する。
論文 参考訳(メタデータ) (2025-11-11T09:01:51Z) - DICE: Structured Reasoning in LLMs through SLM-Guided Chain-of-Thought Correction [29.22321321753093]
大規模言語モデル(LLM)は、しばしば詳細な命令の遵守よりも推論を優先する。
これに対応するための教師付きデータセットの微調整 LLM は、高い計算コストと限られたパラメータアクセスのために実用的ではない。
我々は,小型言語モデル(SLM)をガイドする軽量フレームワークであるDICEを提案し,LLMの出力をチェーン・オブ・シンク(CoT)補正により改善する。
論文 参考訳(メタデータ) (2025-10-10T09:45:35Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - LLMSR@XLLM25: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation [6.920352059545929]
本稿では,LLMSR@XLLM25構造推論タスクにおける3位獲得手法であるLess is Moreを提案する。
提案手法は,逆プロンプト誘導,GPT-4oによる検索拡張推論合成,二段階報酬誘導フィルタリングを用いたマルチエージェントフレームワークを活用する。
全てのモジュールはメタラマ-3-8B-インストラクトからLoRA+を統一した構成で微調整される。
論文 参考訳(メタデータ) (2025-04-23T04:19:52Z) - Improving Consistency in Large Language Models through Chain of Guidance [9.040736633675136]
Chain of Guidance (CoG)は、大規模言語モデル(LLM)から高度に一貫した出力を生成する多段階プロンプト技術である。
我々は、一貫した入出力ペアからなる合成データセットを用いて、一貫した正しい出力を生成する。
我々の微調整モデルは、ベースモデルに比べて2倍以上の一貫性があり、微調整プロセスで使用されていないデータセットに対して一貫した出力を生成することにより、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-02-21T20:41:37Z) - Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。
本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。
また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文 参考訳(メタデータ) (2024-08-08T11:51:45Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。