論文の概要: AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines
- arxiv url: http://arxiv.org/abs/2511.09005v1
- Date: Thu, 13 Nov 2025 01:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.3535
- Title: AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines
- Title(参考訳): 父親を創始するAI: マルチエージェントパイプラインにおけるGIS探索の事例研究
- Authors: Alvin Chauhan,
- Abstract要約: 大規模言語モデル(LLMs)は例外的な流行を示すが、それらからより強力な推論能力を引き出す努力は続けられている。
本稿では,LLM推論と最適化の体系的枠組みを推し進める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) show exceptional fluency, efforts persist to extract stronger reasoning capabilities from them. Drawing on search-based interpretations of LLM computation, this paper advances a systematic framework for understanding LLM reasoning and optimization. Namely, that enhancing reasoning is best achieved by structuring a multi-agent pipeline to ensure a traversal of the search space in a gradual, incremental, and sequential (GIS) manner. Stated succinctly, high-quality reasoning is a controlled, incremental search. To test this framework, we investigate the efficacy of recursive refinement (RR)--an iterative process of self-criticism, adversarial stress-testing, and integrating critical feedback--as a practical method for implementing GIS search. We designed an experiment comparing a simple, linear pipeline against a complex, explicitly structured pipeline leveraging a recursive refinement layer. The multi-agent models were constructed to reflect the historical personas of three US Founding Fathers (Hamilton, Jefferson, and Madison) using RAG-powered corpora and were prompted to generate responses to three contemporary political issues. Model performance was evaluated using a two-tiered approach: a quantitative score from an LLM arbiter agent and qualitative human judgment. Our results revealed that the complex model consistently outperformed the simple model across all nine test cases with an average arbiter-outputted score of 88.3 versus 71.7. The complex model's arguments were superior in analytical depth, structural nuance, and strategic framing. We conclude that recursive refinement is a robust architectural feature for enhancing LLM reasoning via GIS search.
- Abstract(参考訳): 大きな言語モデル (LLMs) は例外的な頻度を示すが、それらからより強力な推論能力を引き出す努力は続けられている。
本稿では,LLM計算の探索に基づく解釈に基づいて,LLM推論と最適化を理解するための体系的な枠組みを整備する。
すなわち、段階的、漸進的、シーケンシャル(GIS)な方法で検索空間のトラバースを確保するために、マルチエージェントパイプラインを構築することにより、推論の強化が最善である。
簡潔に言うと、高品質な推論は、制御されたインクリメンタルな検索である。
本研究では, 自己批判の反復的プロセスである再帰的改善(RR)の有効性を検証し, GIS検索の実践的手法として, 批判的フィードバックの統合を図った。
再帰的精錬層を利用した複雑で明示的に構成されたパイプラインに対して,単純で線形なパイプラインを比較する実験を設計した。
マルチエージェントモデルは、RAGを動力とするコーポラを使って、アメリカ建国の父3人(ハミルトン、ジェファーソン、マディソン)の歴史的性格を反映して構築され、3つの現代の政治問題に反応するように促された。
LLMアービターエージェントの定量的スコアと定性的人間の判断の2段階のアプローチを用いてモデル性能を評価した。
以上の結果から, 複合モデルは, 平均アービター出力スコア 88.3 に対して 71.7 に対して, 単純モデルよりも一貫して優れていた。
複雑なモデルの議論は、分析的深さ、構造的ニュアンス、戦略的フレーミングにおいて優れている。
再帰的改善はGIS検索によるLCM推論の強化のための頑健なアーキテクチャ特徴である,と結論付けている。
関連論文リスト
- LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。
R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。
MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文 参考訳(メタデータ) (2025-07-08T00:41:12Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning [0.8388591755871735]
R-SearchはReasoning-Search統合のための強化学習フレームワークである。
ディープ・サーチ・インタラクションを伴う多段階推論を自律的に実行するために,大規模言語モデルを誘導する。
R-Searchは,マルチリワード信号による最適推論探索軌跡を学習する。
論文 参考訳(メタデータ) (2025-06-04T17:29:22Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。