論文の概要: Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning
- arxiv url: http://arxiv.org/abs/2601.02950v1
- Date: Tue, 06 Jan 2026 11:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.914942
- Title: Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning
- Title(参考訳): Batch-of-Thought: 拡張LDM推論のためのクロスインスタンス学習
- Authors: Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal,
- Abstract要約: Batch-of-Thought (BoT)は、クロスインスタンス学習を可能にするために、関連するクエリを共同で処理するトレーニング不要の手法である。
バッチ間で比較分析を行うことで、BoTは高品質な推論テンプレートを特定し、一貫性チェックを通じてエラーを検出し、計算コストを償却する。
3つのモデルファミリーと6つのベンチマーク実験により、BoT-Rは推論コストを最大61%削減しつつ、精度と信頼性の校正を一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 22.034003823729517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Model reasoning systems process queries independently, discarding valuable cross-instance signals such as shared reasoning patterns and consistency constraints. We introduce Batch-of-Thought (BoT), a training-free method that processes related queries jointly to enable cross-instance learning. By performing comparative analysis across batches, BoT identifies high-quality reasoning templates, detects errors through consistency checks, and amortizes computational costs. We instantiate BoT within a multi-agent reflection architecture (BoT-R), where a Reflector performs joint evaluation to unlock mutual information gain unavailable in isolated processing. Experiments across three model families and six benchmarks demonstrate that BoT-R consistently improves accuracy and confidence calibration while reducing inference costs by up to 61%. Our theoretical and experimental analysis reveals when and why batch-aware reasoning benefits LLM systems.
- Abstract(参考訳): 現在の大規模言語モデル推論システムはクエリを独立に処理し、共有推論パターンや一貫性制約といった貴重なクロスインスタンス信号を捨てる。
本稿では,Batch-of-Thought(BoT)という,関連するクエリを協調処理してクロスインスタンス学習を実現するトレーニングフリーな手法を紹介した。
バッチ間で比較分析を行うことで、BoTは高品質な推論テンプレートを特定し、一貫性チェックを通じてエラーを検出し、計算コストを償却する。
マルチエージェント・リフレクション・アーキテクチャ(BoT-R)内でBoTをインスタンス化し、リフレクタが共同評価を行い、分離処理では利用できない相互情報のアンロックを行う。
3つのモデルファミリーと6つのベンチマーク実験により、BoT-Rは推論コストを最大61%削減しつつ、精度と信頼性の校正を一貫して改善することを示した。
我々の理論的および実験的分析は、バッチ認識推論がLLMシステムにいつ、なぜ利益をもたらすかを明らかにする。
関連論文リスト
- TIM-PRM: Verifying multimodal reasoning with Tool-Integrated PRM [45.91545449507256]
MLLM(Multimodal Large Language Models)は、数学的推論において優れた性能を発揮する。
視覚幻覚や論理的不整合に弱いままであり、標準的な結果に基づく監督が軽減に失敗する。
TIM-PRMは,受動的分類タスクから能動的ツール強化調査へ検証を変換する新しいエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-28T09:01:38Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - SI-FACT: Mitigating Knowledge Conflict via Self-Improving Faithfulness-Aware Contrastive Tuning [0.0]
大規模言語モデルは、知識の衝突により、知識集約的なタスクにおいて不誠実な応答を生成することが多い。
このフレームワークは自己指示機構を使用して、ベースLLMが高品質なコントラスト学習データを自動生成することを可能にする。
知識衝突評価ベンチマークのECARE KREとCOSE KREの実験では、Llama3 8Bに基づくSI FACTモデルでは、最高のベースライン法よりもコンテキストリコール率を6.2%改善している。
論文 参考訳(メタデータ) (2025-09-12T12:56:14Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。