論文の概要: RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners
- arxiv url: http://arxiv.org/abs/2605.00199v2
- Date: Thu, 07 May 2026 14:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.287724
- Title: RSAT: Structured Attribution Makes Small Language Models Faithful Table Reasoners
- Title(参考訳): RSAT: 構造化属性により、小さな言語モデルに忠実なテーブル推論が可能に
- Authors: Jugal Gajjar, Kamalasankari Subramaniakuppusamy,
- Abstract要約: RSATは、テーブルエビデンスに接地された細胞レベルの引用を段階的に推論する。
フェーズ1は、検証された推論トレースから構造化された出力フォーマットを教える。
RSAT は SFT 単独で 3.7$times$ (0.224$rightarrow$0.826) を改良し、ほぼ完全な引用の有効性を持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When a language model answers a table question, users have no way to verify which cells informed which reasoning steps. We introduce RSAT, a method that trains small language models (SLMs, 1-8B) to produce step-by-step reasoning with cell-level citations grounded in table evidence. Phase 1 (SFT) teaches a structured JSON output format from verified reasoning traces. Phase 2 (GRPO) optimizes a composite reward centered on NLI-based faithfulness, alongside citation validity and parsimony. Across six models from two families-Qwen 2.5 (1.5B/3B/7B) and Llama 3 (1B/3B/8B)-RSAT improves faithfulness 3.7$\times$ over SFT alone (0.224$\rightarrow$0.826), with near-perfect citation validity (0.992). Post-hoc attribution collapses below 13% format success, confirming that attribution must be integrated into reasoning, not retrofitted. Ablations show the faithfulness reward is essential: removing it drops faithfulness from 0.97 to 0.03.
- Abstract(参考訳): 言語モデルがテーブルの質問に答えると、ユーザーはどのセルがどの推論ステップを通知しているかを検証できない。
RSATは小さな言語モデル (SLMs 1-8B) を訓練し, テーブルエビデンスに基づくセルレベルの引用によるステップバイステップの推論を行う手法である。
フェーズ1(SFT)は、検証された推論トレースから構造化されたJSON出力フォーマットを教える。
第2相(GRPO)は、NLIに基づく忠実度を中心とした複合報酬を、引用妥当性とパシモニーを最適化する。
Qwen 2.5 (1.5B/3B/7B) と Llama 3 (1B/3B/8B)-RSAT は SFT 単独で 3.7$\times$ (0.224$\rightarrow$0.826) を改良し、ほぼ完全な引用妥当性 (0.992) を持つ。
ポストホック帰属は13%のフォーマットの成功以下で崩壊し、帰属は再適合ではなく推論に統合されるべきであることを確認した。
信念の報酬は、0.97から0.03に減少する。
関連論文リスト
- Semantic Layers for Reliable LLM-Powered Data Analytics: A Paired Benchmark of Accuracy and Hallucination Across Three Frontier Models [0.0]
解析データベースの自然言語クエリ用にデプロイされたLLMは、2つの障害に悩まされる。
ClickHouseのCleaned Contoso Retailデータセットに対して,100の自然言語質問に対して,3つのフロンティアLSMをベンチマークした。
論文 参考訳(メタデータ) (2026-04-28T02:53:23Z) - Learn by Surprise, Commit by Proof [0.0]
本稿では,自律的知識獲得のための自己学習後フレームワークを提案する。
通路が異常に高いパートーケン損失を発生させると、L SCPはそれをフラグ化し、モデルに自身の知識を明確にさせるQ&A連鎖を生成する。
学習強度は1つのパラメータ$r$で管理される。
論文 参考訳(メタデータ) (2026-04-02T12:17:10Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - Improving the fact-checking performance of language models by relying on their entailment ability [3.371541812350348]
本稿では,ファクトチェックのために,エンコーダのみの言語モデル(ELM)を訓練するための簡易かつ効果的な手法を提案する。
我々は厳密な実験を行い、我々のアプローチを最近の研究と比べ、アプローチの優位性を実証するために様々なプロンプトと微調整の戦略を実践した。
論文 参考訳(メタデータ) (2025-05-21T03:15:06Z) - SIFT: Grounding LLM Reasoning in Contexts via Stickers [8.677892927579384]
本稿では,大言語モデルの推論過程において,文脈の誤解釈が重要な問題であることを示す。
そこで我々は、***Stick to the Facts (SIFT)**という新しいポストトレーニング手法を導入し、この問題に対処する。
SIFTの中核にある*Sticker*は、コンテキスト内の重要な情報を明示的に強調するためにモデル自身によって生成される。
論文 参考訳(メタデータ) (2025-02-19T17:38:46Z) - RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis [84.57932472551889]
RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを、それぞれ5.6%$(リランクなし)から2.5%$と1.0%$に改善した。
論文 参考訳(メタデータ) (2024-04-04T05:15:07Z) - Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。
LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。
我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。