Fugu-MT 論文翻訳(概要): PathFinder: Guided Search over Multi-Step Reasoning Paths

論文の概要: PathFinder: Guided Search over Multi-Step Reasoning Paths

arxiv url: http://arxiv.org/abs/2312.05180v2
Date: Tue, 12 Dec 2023 16:06:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 12:41:01.441017
Title: PathFinder: Guided Search over Multi-Step Reasoning Paths
Title（参考訳）: PathFinder:マルチステップ推論パスに関するガイド付き検索
Authors: Olga Golovneva, Sean O'Brien, Ramakanth Pasunuru, Tianlu Wang, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz
Abstract要約: 木探索に基づく推論経路生成手法であるPathFinderを提案する。動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
参考スコア（独自算出の注目度）: 80.56102301441899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With recent advancements in large language models, methods like chain-of-thought prompting to elicit reasoning chains have been shown to improve results on reasoning tasks. However, tasks that require multiple steps of reasoning still pose significant challenges to state-of-the-art models. Drawing inspiration from the beam search algorithm, we propose PathFinder, a tree-search-based reasoning path generation approach. It enhances diverse branching and multi-hop reasoning through the integration of dynamic decoding, enabled by varying sampling methods and parameters. Using constrained reasoning, PathFinder integrates novel quality constraints, pruning, and exploration methods to enhance the efficiency and the quality of generation. Moreover, it includes scoring and ranking features to improve candidate selection. Our approach outperforms competitive baselines on three complex arithmetic and commonsense reasoning tasks by 6% on average. Our model generalizes well to longer, unseen reasoning chains, reflecting similar complexities to beam search with large branching factors.
Abstract（参考訳）: 近年の大規模言語モデルの発展に伴い、思考の連鎖のような手法が推論の連鎖を誘発し、推論タスクの結果を改善することが示されている。しかし、複数の推論ステップを必要とするタスクは、まだ最先端のモデルに重大な課題をもたらしている。ビーム探索アルゴリズムからインスピレーションを得て,木探索に基づく推論経路生成手法であるPathFinderを提案する。様々なサンプリング方法とパラメータによって実現される動的デコードの統合により、多様な分岐とマルチホップ推論が強化される。 PathFinderは制約付き推論を使用して、新しい品質制約、刈り取り、探索手法を統合して、生成の効率性と品質を向上させる。さらに、候補選択を改善するためのスコアとランキング機能も備えている。提案手法は,3つの複雑な算術および常識推論タスクの競合ベースラインを平均6%向上させる。モデルでは, 長い未知の推論連鎖によく一般化し, 大きな分岐因子を持つビーム探索に類似した複雑さを反映している。

関連論文リスト

LogitsCoder: Towards Efficient Chain-of-Thought Path Search via Logits Preference Decoding for Code Generation [86.08600027874662]
コード生成のための軽量なロジットレベル制御機構を通じて、チェーン・オブ・シント推論を強化する新しいフレームワークであるLogitsCoderを提案する。我々はLogitsCoderがより効率的で高品質な推論チェーンを生成することを示し、ベースライン方式に比べてコード生成性能が優れていることを示した。
論文参考訳（メタデータ） (2026-02-15T08:52:19Z)
Neural Chain-of-Thought Search: Searching the Optimal Reasoning Path to Enhance Large Language Models [61.55758048622473]
最適思考戦略の動的探索として推論を再構成するフレームワークであるNeural Chain-of-Thought Search (NCoTS)を導入する。解空間を定量的に特徴づけることで、標準出力よりも正確かつ簡潔なスパース優良推論経路の存在を明らかにする。
論文参考訳（メタデータ） (2026-01-16T14:38:18Z)
Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文参考訳（メタデータ） (2026-01-08T15:56:44Z)
Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文参考訳（メタデータ） (2025-09-29T19:27:23Z)
R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning [0.8388591755871735]
R-SearchはReasoning-Search統合のための強化学習フレームワークである。ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。 R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
論文参考訳（メタデータ） (2025-06-04T17:29:22Z)
GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。 GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文参考訳（メタデータ） (2025-03-10T16:42:48Z)
Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。 Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文参考訳（メタデータ） (2025-02-22T14:13:37Z)
Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文参考訳（メタデータ） (2025-02-04T22:08:20Z)
Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models [8.295475330195993]
本稿では,セマンティック探索を適応ゲーティング(SEAG)で提案し,意味論的に同一の経路を探索する。 SEAGは計算コストの31%しか必要とせず、平均4.3%の精度を著しく向上させる。実験の結果,SEAGの精度は平均4.3%向上し,計算コストは31%に過ぎなかった。
論文参考訳（メタデータ） (2025-01-10T07:02:43Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance [17.28280896937486]
言語モデルの探索と計画能力を高めるために最適な解をいかに活用するかを示す。提案手法は,単純な数学的推論タスクであるCountdownにおける言語モデルの探索と計画能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-03T21:07:59Z)
What Matters in Hierarchical Search for Combinatorial Reasoning Problems? [0.0]
近年の取り組みでは,階層的な高次探索戦略を取り入れたサブゴアル手法による計画の強化が試みられている。有望ではあるが、従来の低レベルのプランナに対する彼らのパフォーマンスは一貫性がなく、アプリケーションコンテキストに関する疑問を提起している。難解な値関数、複雑なアクション空間、環境におけるデッドエンドの存在、あるいは多様な専門家から収集されたデータなど、ハイレベル検索の利点を活用する上で重要な属性を同定する。
論文参考訳（メタデータ） (2024-06-05T15:14:58Z)
FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
本稿では,知識グラフ質問応答を強化する検索拡張推論手法FiDeLiSを提案する。 FiDeLiSはキーワード付き検索機構を使用し、KGのベクトルベースインデックスから関連エンティティと関係をフェッチする。我々のアプローチの特徴は、推論経路の選択を最適化するために、自然言語とビームサーチをブレンドすることである。
論文参考訳（メタデータ） (2024-05-22T17:56:53Z)
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-18T16:21:40Z)
Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。 SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文参考訳（メタデータ） (2023-05-23T19:58:30Z)
Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文参考訳（メタデータ） (2022-10-06T00:27:50Z)
Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文参考訳（メタデータ） (2022-10-03T05:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。