論文の概要: BOOST: Bootstrapping Strategy-Driven Reasoning Programs for Program-Guided Fact-Checking
- arxiv url: http://arxiv.org/abs/2504.02467v3
- Date: Fri, 01 Aug 2025 06:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.356102
- Title: BOOST: Bootstrapping Strategy-Driven Reasoning Programs for Program-Guided Fact-Checking
- Title(参考訳): BOOST: プログラム駆動Fact-Checkingのためのブートストラップ戦略駆動型推論プログラム
- Authors: Qisheng Hu, Quanyu Long, Wenya Wang,
- Abstract要約: BOOSTは、数発の推論プログラムの自動生成のためのブートストラップ方式である。
デモ作成を導くメタルールとして、明示的でデータ駆動のガイドラインを反復的に洗練します。
ゼロショットから少数ショットのプログラム誘導学習へのシームレスな移行を可能にし、解釈可能性と有効性を高める。
- 参考スコア(独自算出の注目度): 16.655011153015202
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model pipelines have improved automated fact-checking for complex claims, yet many approaches rely on few-shot in-context learning with demonstrations that require substantial human effort and domain expertise. Among these, program-guided reasoning, by decomposing claims into function calls and executing reasoning programs, which has shown particular promise, but remains limited by the need for manually crafted demonstrations. Fundamentally, the underlying principles of effective reasoning program generation still remain underexplored. In this work, we introduce BOOST, a bootstrapping approach for automated few-shot reasoning program generation. BOOST iteratively refines explicit, data-driven guidelines as meta-rules for guiding demonstration creation, using a critique-refine loop that eliminates the need for human intervention. This enables a seamless transition from zero-shot to few-shot program-guided learning, enhancing interpretability and effectiveness. Experimental results show that BOOST outperforms prior few-shot baselines in both zero-shot and few-shot settings for complex claim verification.
- Abstract(参考訳): 大規模な言語モデルパイプラインは、複雑なクレームの自動ファクトチェックを改善した。しかしながら、多くのアプローチは、かなりの人間の努力とドメインの専門知識を必要とするデモを伴う、数発のコンテキスト内学習に依存している。
これらのうち、プログラム誘導推論は、要求を関数呼び出しに分解し、特定の約束を示す推論プログラムを実行することによって行われる。
基本的には、効果的な推論プログラム生成の根底にある原理はいまだに未解明のままである。
本稿では,自動小ショット推論プログラム生成のためのブートストラップ手法であるBOOSTを紹介する。
BOOSTは、明示的でデータ駆動的なガイドラインを、人間の介入の必要性を排除した批判的-再定義ループを使用して、デモ作成を導くメタルールとして反復的に洗練する。
これにより、ゼロショットから少数ショットのプログラム誘導学習へのシームレスな移行が可能になり、解釈可能性と効果が向上する。
実験の結果、BOOSTは、複雑なクレーム検証のためのゼロショットおよび少数ショット設定の両方において、以前の数ショットベースラインよりも優れていた。
関連論文リスト
- ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [53.149817480019834]
大規模推論モデル(LRM)の最近の進歩は、チェーン・オブ・ソート(CoT)による生成長のスケールアップにより、複雑な推論タスクにおける顕著な性能向上を実現している。
本稿では,推論過程のトークン生成中にテキストヒントを注入することにより,推論モデルに簡潔な発話を促すフレームワークであるConciseHintを提案する。
DeepSeek-R1 や Qwen-3 シリーズを含む最先端の LRM 実験により,本手法は性能を良好に保ちながら簡潔な推論過程を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - Code Execution as Grounded Supervision for LLM Reasoning [36.97199200274124]
チェーン・オブ・ソート(CoT)による大規模言語モデルのトレーニングは,推論能力の向上に有効であることが証明されている。
本稿では,プログラム実行の決定性を利用して,高品質なCoT監視データセットを生成するスケーラブルな手法を提案する。
提案手法では,コード実行から検証可能なステップバイステップの推論トレースを抽出し,それを自然言語のCoT推論に変換する。
論文 参考訳(メタデータ) (2025-06-12T04:36:57Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Reasoning-Oriented and Analogy-Based Methods for Locating and Editing in Zero-Shot Event-Relational Reasoning [1.0373115083302502]
推論指向のロケート・編集(ROLE)とアナロジーに基づくロケート・編集(ABLE)を提案する。
ROLEは、イベント関係の推論、解釈可能性の向上、推論能力のリソース効率の最適化のために、言語モデルの重要モジュールを特定し、編集する。
ABLEはゼロショット推論能力を最適化するためにタスク間の類似点と相違点を利用する。
論文 参考訳(メタデータ) (2025-01-01T11:02:08Z) - Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。
その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。
提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2024-10-10T17:14:36Z) - SEED: Accelerating Reasoning Tree Construction via Scheduled Speculative Decoding [16.380389806465733]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な創発的な能力を示すが、複雑な推論や計画タスクには欠ける。
本稿では,実行速度とGPUメモリ管理を同時に最適化する新しい,効率的な推論フレームワークであるSeeDを紹介する。
論文 参考訳(メタデータ) (2024-06-26T09:33:41Z) - Learning From Correctness Without Prompting Makes LLM Efficient Reasoner [30.203952806009717]
大規模言語モデル(LLM)は様々なタスクで優れた性能を示してきたが、幻覚、不誠実な推論、有害な内容などの制限がまだ残っている。
人間のフィードバックや外部ツール,手工芸のプロンプトを不要にする,本質的な自己修正推論フレームワークをLLMに導入する。
論文 参考訳(メタデータ) (2024-03-28T02:12:49Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Provable Representation with Efficient Planning for Partial Observable Reinforcement Learning [74.67655210734338]
ほとんどの実世界の強化学習アプリケーションでは、状態情報は部分的にしか観測できないため、マルコフ決定プロセスの仮定を破る。
我々は、部分的な観察から実践的な強化学習のためのコヒーレントな枠組みと抽出可能なアルゴリズムアプローチへと導く表現に基づく視点を開発する。
提案アルゴリズムは,様々なベンチマークで部分的な観察を行い,最先端の性能を超えることができることを実証的に実証した。
論文 参考訳(メタデータ) (2023-11-20T23:56:58Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Learning from Executions for Semantic Parsing [86.94309120789396]
注釈付きデータの限られた量が利用できる半教師付き学習の課題に焦点をあてる。
ラベルなし発話に対する実行可能プログラムを提案する。
論文 参考訳(メタデータ) (2021-04-12T21:07:53Z) - Program Enhanced Fact Verification with Verbalization and Graph
Attention Network [25.33739187395408]
本稿では,プログラムと実行をテキスト推論モデルに統合する,プログラム強化型言語化とグラフ注意ネットワーク(ProgVGAT)を提案する。
本研究では,言語化されたプログラムの実行,プログラム構造,原文と表から,さまざまな証拠源を融合するグラフアテンション検証ネットワークを構築した。
実験結果から,提案手法はベンチマークデータセットTABFACTにおいて74.4%の精度で新たな最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2020-10-06T23:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。