Fugu-MT 論文翻訳(概要): THOUGHTSCULPT: Reasoning with Intermediate Revision and Search

論文の概要: THOUGHTSCULPT: Reasoning with Intermediate Revision and Search

arxiv url: http://arxiv.org/abs/2404.05966v1
Date: Tue, 9 Apr 2024 02:53:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 16:08:32.971904
Title: THOUGHTSCULPT: Reasoning with Intermediate Revision and Search
Title（参考訳）: THOUGHTSCULPT: 中間修正と検索による推論
Authors: Yizhou Chi, Kevin Yang, Dan Klein,
Abstract要約: 本稿では,THOUGHTSCULPTを提案する。 THOUGHTSCULPTはモンテカルロ木探索(MCTS)を用いて潜在的な解の探索木を探索し、解を一度に1つのアクションで構築し、任意のドメイン固有のコンポーネントに基づいて評価する。実証的には、THOUGHTSCULPTは3つの課題にまたがる最先端の推論手法より優れている。
参考スコア（独自算出の注目度）: 45.55992387270442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present THOUGHTSCULPT, a general reasoning and search method for tasks with outputs that can be decomposed into components. THOUGHTSCULPT explores a search tree of potential solutions using Monte Carlo Tree Search (MCTS), building solutions one action at a time and evaluating according to any domain-specific heuristic, which in practice is often simply an LLM evaluator. Critically, our action space includes revision actions: THOUGHTSCULPT may choose to revise part of its previous output rather than continuing to build the rest of its output. Empirically, THOUGHTSCULPT outperforms state-of-the-art reasoning methods across three challenging tasks: Story Outline Improvement (up to +30% interestingness), Mini-Crosswords Solving (up to +16% word success rate), and Constrained Generation (up to +10% concept coverage).
Abstract（参考訳）: 本稿では,THOUGHTSCULPTについて述べる。 THOUGHTSCULPTはモンテカルロ木探索(MCTS)を用いて潜在的な解の探索木を探索し、解を一度に1つのアクションで構築し、ドメイン固有のヒューリスティックに基づいて評価する。 THOUGHTSCULPTは、アウトプットの残りの部分を構築し続けるのではなく、以前のアウトプットの一部を変更することができる。経験的に、THOUGHTSCULPTは、ストーリーアウトラインの改善(最大+30%の面白さ)、ミニクロスワードの解決(最大+16%の単語の成功率)、制約付き生成(最大+10%のコンセプトカバレッジ)の3つの課題において、最先端の推論方法よりも優れています。

関連論文リスト

SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-09T08:52:27Z)
PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文参考訳（メタデータ） (2025-05-29T17:55:49Z)
Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling [1.219841051166348]
本稿では,テキスト内検索とテスト時間スケーリングの併用の可能性について検討する。内部スケーリングを付加したLLMに高度なコンテキスト内探索プロンプトを付加することにより、変換性能のブレークスルーを実現することができる。
論文参考訳（メタデータ） (2025-05-28T12:28:18Z)
KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。 KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文参考訳（メタデータ） (2025-05-20T16:06:32Z)
Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search [1.0995326465245925]
本稿では,多ターン探索と利用を原則とした繰り返しサンプリングを一般化する新しい推論時フレームワークを提案する。探索ツリーの各ノードにおいて、AB-MCTSは、新しい候補の応答を拡大することで「より広く」行くか、既存の応答を再考して「より深く進む」かを動的に決定する。
論文参考訳（メタデータ） (2025-03-06T13:10:40Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
Leveraging Constrained Monte Carlo Tree Search to Generate Reliable Long Chain-of-Thought for Mathematical Reasoning [21.71105748608989]
Long Chain-of-Thoughts (CoTs) は、Large Language Models (LLMs) の推論能力を改善するために広く注目を集めている。本稿では, 動作空間の制約とLong CoTsの出現を, 洗練された探索戦略によって導くことを提案する。提案手法により,72Bモデルを超える推論能力を 7B モデルで実現できる。
論文参考訳（メタデータ） (2025-02-16T15:39:57Z)
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search [74.46681227410038]
効率的な推論パス探索と学習のための集合モンテカルロ木探索(CoMCTS)を提案する。我々はMulberry-260kを構築する。Mulberry-260kはマルチモーダルなデータセットで、各質問に対してリッチで明示的で明確に定義された推論ノードのツリーを持つ。我々は、o1のようなステップバイステップ推論とリフレクション機能を備えたMLLMの一連のモデルであるMulberryを訓練するために、集合SFTを実行する。
論文参考訳（メタデータ） (2024-12-24T10:07:51Z)
RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。 Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文参考訳（メタデータ） (2024-12-17T13:05:36Z)
ConceptSearch: Towards Efficient Program Search Using LLMs for Abstraction and Reasoning Corpus (ARC) [5.333409383920058]
ConceptSearchは、コンセプトベースのスコアリングを使用して、検索を効率的にガイドする新しい関数検索アルゴリズムである。実験結果はConceptSearchの有効性を示し、直接プロンプトよりも大幅なパフォーマンス向上を実現している。これらの知見は、概念に基づくガイダンスと統合されたLLMによるプログラム探索の可能性を強調した。
論文参考訳（メタデータ） (2024-12-10T09:10:11Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
Interpretable Contrastive Monte Carlo Tree Search Reasoning [25.11379135302235]
大規模言語モデル(LLM)のための新しいモンテカルロ木探索法(MCTS)を提案する。 SC-MCTSは推論精度と速度の両方を著しく改善することを示した。我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。
論文参考訳（メタデータ） (2024-10-02T16:15:31Z)
RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。 RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文参考訳（メタデータ） (2024-09-15T02:07:28Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
An Examination on the Effectiveness of Divide-and-Conquer Prompting in Large Language Models [28.139780691709266]
本研究では,DACプロンプトが性能向上に寄与する特定のタスクの特定を支援する。実験結果が理論解析と一致した2つのケース(大整数算術と実数検証)を提示する。
論文参考訳（メタデータ） (2024-02-08T02:37:30Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文参考訳（メタデータ） (2023-10-08T06:36:26Z)
Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は比較的未調査です後方推論は前方推論の「逆」と見なすことができます性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文参考訳（メタデータ） (2023-10-03T12:03:06Z)
SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-09-20T15:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。