論文の概要: Improving LLM Reasoning via Dependency-Aware Query Decomposition and Logic-Parallel Content Expansion
- arxiv url: http://arxiv.org/abs/2510.24390v1
- Date: Tue, 28 Oct 2025 13:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.186451
- Title: Improving LLM Reasoning via Dependency-Aware Query Decomposition and Logic-Parallel Content Expansion
- Title(参考訳): 依存型クエリ分解と論理パラレルコンテンツ拡張によるLLM推論の改善
- Authors: Xianjun Gao, Jianchun Liu, Hongli Xu, Liusheng Huang,
- Abstract要約: AIによる検索や会話エージェントなどのリアルタイムWebアプリケーションへのLarge Language Modelsの統合は、Webインフラストラクチャの基本的な課題である。
そこで我々は,依存性を意識したクエリの分解と論理並列コンテンツの拡張を可能にする,新規で効率的な推論フレームワークOrionを提案する。
多様なベンチマークの実験によると、Orionはトークン生成速度を最大4.33倍、応答遅延を3.42倍まで削減するだけでなく、推論品質を最大18.75%向上させる。
- 参考スコア(独自算出の注目度): 29.45427036598799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into real-time Web applications, such as AI-powered search and conversational agents, presents a fundamental Web infrastructure challenge: reconciling the demand for high-quality, complex reasoning with the stringent low-latency and high-throughput requirements of interactive services. Current LLM reasoning, hindered by computationally inefficient sequential generation and rigid reasoning strategies, creates a critical bottleneck for the Web services. Existing approaches typically optimize the LLM reasoning for either efficiency or quality but struggle to achieve both, and thus fail to meet the dual requirements of modern Web platforms. To overcome these limitations, we propose Orion, a novel and efficient reasoning framework that enables dependency-aware query decomposition and logic-parallel content expansion. Concretely, Orion decomposes a single query reasoning process into two synergistic phases: (1) \textit{key point generation}, which distills logically structured key points through retrieval-augmented few-shot prompting, and (2) \textit{content parallel expansion}, which concurrently elaborates on these points based on a dependency graph to ensure logical consistency. Furthermore, Orion introduces a pipeline scheduling mechanism that exploits the complementary computational characteristics of the two phases (generation imposes pressure on GPU computing and expansion stresses on GPU memory) across multiple queries, enabling cross-query parallelism and dramatically improving reasoning performance (\ie, efficiency and quality). Experiments on diverse benchmarks show that Orion not only delivers up to 4.33x higher token generation speed and 3.42x lower answer latency over the baselines but also improves reasoning quality by up to 18.75% through explicitly modeling inter-point dependencies.
- Abstract(参考訳): 大規模言語モデル(LLM)をAIによる検索や会話エージェントなどのリアルタイムWebアプリケーションに統合することは、対話型サービスの厳格な低レイテンシと高スループット要求と、高品質で複雑な推論の要求を整合させるという、基本的なWebインフラストラクチャの課題を提示する。
現在のLCM推論は、計算的に非効率な逐次生成と厳密な推論戦略によって妨げられ、Webサービスにとって重要なボトルネックを生み出します。
既存のアプローチは通常、LLM推論を効率性または品質のいずれかで最適化するが、両方を達成するのに苦労しているため、現代のWebプラットフォームの二重要求を満たすことができない。
これらの制限を克服するために,依存性を意識したクエリの分解と論理並列コンテンツの拡張を可能にする,新規かつ効率的な推論フレームワークOrionを提案する。
具体的には、Orionは単一のクエリ推論プロセスを2つの相乗的フェーズに分解する: (1) 拡張された数ショットプロンプトによって論理的に構造化されたキーポイントを蒸留する \textit{key point generation} と (2) 依存性グラフに基づいてこれらのポイントを同時に精査し、論理的一貫性を確保する。
さらに、Orionは2つのフェーズの補完的な計算特性(世代はGPUコンピューティングに圧力を課し、GPUメモリに拡張ストレスを課す)を複数のクエリにわたって活用するパイプラインスケジューリング機構を導入し、クロスクエリ並列化を可能にし、推論性能(生産性、効率、品質)を劇的に改善する。
さまざまなベンチマークの実験によると、Orionはトークン生成速度を最大4.33倍、応答遅延を3.42倍に向上するだけでなく、ポイント間の依存関係を明示的にモデル化することで、推論品質を最大18.75%向上させる。
関連論文リスト
- ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking [59.65564262588308]
並列思考は探索範囲を広げ、情報探索(IS)エージェントの深い探索を補完する。
ディープISエージェント用に設計された2段階パラダイムであるParallelMuseを提案する。
複数のオープンソースエージェントとベンチマークの実験では、最大62%のパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution [48.7788770680643]
Flash-Searcherは、新しい並列エージェント推論フレームワークである。
複雑なタスクを明示的な依存関係でサブタスクに分解し、独立した推論パスの同時実行を可能にする。
BrowseCompでは67.7%の精度で、xbench-DeepSearchでは83%、エージェントの実行手順は現在のフレームワークに比べて最大35%削減されている。
論文 参考訳(メタデータ) (2025-09-29T17:39:30Z) - Hybrid Deep Searcher: Integrating Parallel and Sequential Search Reasoning [57.78245296980122]
本稿では,自然質問から自動生成されるデータセットであるHDS-QA(Hybrid Deep Search QA)を紹介する。
並列化可能な独立サブクエリ(同時に実行可能)と逐次依存サブクエリ(ステップバイステップの解決を必要とする)を組み合わせたハイブリッドホップ質問を含む。
モデルの名称はHybridDeepSearcherで、複数のベンチマークで最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2025-08-26T15:15:17Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。