論文の概要: PaperGuide: Making Small Language-Model Paper-Reading Agents More Efficient
- arxiv url: http://arxiv.org/abs/2601.12988v1
- Date: Mon, 19 Jan 2026 12:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.892319
- Title: PaperGuide: Making Small Language-Model Paper-Reading Agents More Efficient
- Title(参考訳): PaperGuide:小さな言語モデルによる論文読解エージェントをより効率的にする
- Authors: Zijian Wang, Tiancheng Huang, Hanqi Li, Da Ma, Lu Chen, Kai Yu,
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、科学論文を読み取ってタスク関連情報を抽出できる自律エージェントへの関心を喚起している。
既存のアプローチのほとんどは、高度に設計されたプロンプトか、あるいは従来のSFT-RLトレーニングパイプラインに依存している。
本稿では,これらの問題を緩和するフレームワークであるPaper RLを提案する。
- 参考スコア(独自算出の注目度): 20.72001543887772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accelerating growth of the scientific literature makes it increasingly difficult for researchers to track new advances through manual reading alone. Recent progress in large language models (LLMs) has therefore spurred interest in autonomous agents that can read scientific papers and extract task-relevant information. However, most existing approaches rely either on heavily engineered prompting or on a conventional SFT-RL training pipeline, both of which often lead to excessive and low-yield exploration. Drawing inspiration from cognitive science, we propose PaperCompass, a framework that mitigates these issues by separating high-level planning from fine-grained execution. PaperCompass first drafts an explicit plan that outlines the intended sequence of actions, and then performs detailed reasoning to instantiate each step by selecting the parameters for the corresponding function calls. To train such behavior, we introduce Draft-and-Follow Policy Optimization (DFPO), a tailored RL method that jointly optimizes both the draft plan and the final solution. DFPO can be viewed as a lightweight form of hierarchical reinforcement learning, aimed at narrowing the `knowing-doing' gap in LLMs. We provide a theoretical analysis that establishes DFPO's favorable optimization properties, supporting a stable and reliable training process. Experiments on paper-based question answering (Paper-QA) benchmarks show that PaperCompass improves efficiency over strong baselines without sacrificing performance, achieving results comparable to much larger models.
- Abstract(参考訳): 科学文献の成長が加速するにつれ、研究者は手書きの読み書きだけで新しい進歩を追跡することがますます困難になっている。
大規模言語モデル(LLM)の最近の進歩は、科学論文を読み取ってタスク関連情報を抽出できる自律エージェントへの関心を喚起している。
しかし、既存のほとんどのアプローチは、高度に設計されたプロンプトか、従来のSFT-RL訓練パイプラインに依存しており、どちらも過度で低利回りな探索に繋がることが多い。
本稿では,認知科学からインスピレーションを得たPaperCompassを提案する。
PaperCompassはまず、意図されたアクションのシーケンスの概要を示す明示的なプランをドラフトし、その後、対応する関数呼び出しのパラメータを選択して各ステップをインスタンス化する詳細な推論を実行する。
このような振る舞いをトレーニングするために,ドラフト・アンド・フォロー・ポリシー・最適化(DFPO)を導入し,ドラフト計画と最終解の両方を協調的に最適化するRL法を提案する。
DFPOは、LLMの「知識」ギャップを狭めることを目的とした、階層的強化学習の軽量な形態と見なすことができる。
本研究では,DFPOの最適最適化特性を確立し,安定かつ信頼性の高い学習プロセスを支援する理論的解析を行う。
紙ベースの質問応答(Paper-QA)ベンチマークの実験では、PaperCompassは性能を犠牲にすることなく、強力なベースラインよりも効率を向上し、はるかに大きなモデルに匹敵する結果を達成している。
関連論文リスト
- PaperScout: An Autonomous Agent for Academic Paper Search with Process-Aware Sequence-Level Policy Optimization [11.080060663295072]
PaperScoutは、紙検索をシーケンシャルな意思決定プロセスとして再構成する自律エージェントである。
プロセス対応のシーケンスレベルポリシー最適化手法であるPSPO(Proximal Sequence Policy Optimization)を導入する。
合成と実世界のベンチマークの実験では、PaperScoutはワークフロー駆動の強いベースラインとRLベースラインをリコールと関連の両方で大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-15T03:21:21Z) - CogDoc: Towards Unified thinking in Documents [53.41571589733423]
本稿では,人間の認知過程を模倣する統一された粗大な思考枠組みを提案する: 情報ローカライゼーションのための低解像度の「Fast Reading」フェーズ,そして深い推論のための高解像度の「Focused Thinking」フェーズを提案する。
我々は、統合思考フレームワークの訓練後戦略を厳格に調査し、直接強化学習アプローチが監督微調整(SFT)でRLを上回ることを実証した。
具体的には、直接RLは、SFTで観察される「政治紛争」を避けている。
論文 参考訳(メタデータ) (2025-12-14T12:14:17Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。