論文の概要: ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.00489v1
- Date: Sat, 01 Nov 2025 10:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.804453
- Title: ToM: Leveraging Tree-oriented MapReduce for Long-Context Reasoning in Large Language Models
- Title(参考訳): ToM:大規模言語モデルにおける長期推論のためのツリー指向MapReduceの活用
- Authors: Jiani Guo, Zuchao Li, Jie Wu, Qianren Wang, Yun Li, Lefei Zhang, Hai Zhao, Yujiu Yang,
- Abstract要約: ToMは、長期コンテキスト推論のための新しいツリー指向MapReduceフレームワークである。
ToM は既存の分割・クエリー・フレームワークや検索拡張生成手法よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 107.86069298500855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), constrained by limited context windows, often face significant performance degradation when reasoning over long contexts. To address this, Retrieval-Augmented Generation (RAG) retrieves and reasons over chunks but frequently sacrifices logical coherence due to its reliance on similarity-based rankings. Similarly, divide-and-conquer frameworks (DCF) split documents into small chunks for independent reasoning and aggregation. While effective for local reasoning, DCF struggles to capture long-range dependencies and risks inducing conflicts by processing chunks in isolation. To overcome these limitations, we propose ToM, a novel Tree-oriented MapReduce framework for long-context reasoning. ToM leverages the inherent hierarchical structure of long documents (e.g., main headings and subheadings) by constructing a DocTree through hierarchical semantic parsing and performing bottom-up aggregation. Using a Tree MapReduce approach, ToM enables recursive reasoning: in the Map step, rationales are generated at child nodes; in the Reduce step, these rationales are aggregated across sibling nodes to resolve conflicts or reach consensus at parent nodes. Experimental results on 70B+ LLMs show that ToM significantly outperforms existing divide-and-conquer frameworks and retrieval-augmented generation methods, achieving better logical coherence and long-context reasoning. Our code is available at https://github.com/gjn12-31/ToM .
- Abstract(参考訳): 大きな言語モデル(LLM)は、制限されたコンテキストウインドウによって制約され、長いコンテキストに対する推論時に大きなパフォーマンス低下に直面します。
これを解決するために、レトリーバル拡張生成(RAG)は、チャンクを越え、原因を検索するが、類似性に基づくランキングに依存するため、しばしば論理的一貫性を犠牲にする。
同様に、DCF(disvision-and-conquer framework)は文書を独立した推論と集約のために小さなチャンクに分割する。
ローカルな推論には有効だが、DCFは、チャンクを分離して処理することで、長距離の依存関係と競合を引き起こすリスクを捕捉するのに苦労している。
これらの制約を克服するため、長文推論のための新しいツリー指向MapReduceフレームワークToMを提案する。
ToMは、階層的なセマンティックパーシングを通じてDocTreeを構築し、ボトムアップアグリゲーションを実行することで、長いドキュメント(例えば、メインヘッダやサブヘッダ)の固有の階層構造を活用する。
Tree MapReduceアプローチを使用することで、ToMは再帰的推論を可能にする。Mapステップでは、子ノードで合理性を生成する。Reduceeステップでは、これらの合理性は兄弟ノード間で集約され、競合を解決するか、親ノードでコンセンサスに達する。
70B以上のLLMによる実験結果から,ToM は既存の分割・クエリー・フレームワークや検索拡張生成手法を著しく上回り,論理コヒーレンスと長文推論の精度向上を実現していることがわかった。
私たちのコードはhttps://github.com/gjn12-31/ToMで利用可能です。
関連論文リスト
- Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding [30.54420648726099]
文書レベルの構造文書MAPは、階層的組織と多モード文書内の要素間関係の両方を符号化する。
この表現に基づいて、リフレクティブ推論エージェントは構造認識およびエビデンス駆動推論を実行する。
MMDocQAベンチマークの実験では、DMAPが文書固有の構造表現を人間の解釈パターンと一致させることが示されている。
論文 参考訳(メタデータ) (2026-01-26T06:38:25Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees [66.39371821756649]
適応的で階層的なコンテキスト圧縮のための新しいフレームワークであるAdmTreeを提案する。
AdmTreeは情報密度に基づいて入力されたセグメントをgistトークンを利用して、可変長のセグメントをセマンティックバイナリツリーの葉として要約する。
グローバルなセマンティックコヒーレンスと共に細かな詳細を保存し、位置バイアスを緩和し、コンテンツに動的に適応することによって、AdmTreeは長いコンテキストのセマンティック情報をしっかりと保持する。
論文 参考訳(メタデータ) (2025-12-04T08:04:19Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - Tree of Agents: Improving Long-Context Capabilities of Large Language Models through Multi-Perspective Reasoning [11.045096250408067]
Tree of Agents(TOA)は、インプットを独立したエージェントによって処理されたチャンクに分割するマルチエージェント推論フレームワークである。
TOAは、エージェントが複数のパースペクティブな理解のために異なる推論順序を探索することを可能にする。
処理効率を向上させるため,プレフィックスハッシュキャッシュと適応型プルーニング戦略を取り入れた。
論文 参考訳(メタデータ) (2025-09-08T08:34:02Z) - When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework [39.66331560468973]
本稿では,Large Language Models (LLM) を長文に適用することの課題について検討する。
本稿では,長いコンテキストタスクの障害モードを,クロスチャンク依存(タスクノイズ),コンテキストサイズで大きくなる混乱(モデルノイズ),部分的な結果の完全統合(集約ノイズ)の3つのカテゴリに分類する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-19T15:49:34Z) - Toward Multi-Session Personalized Conversation: A Large-Scale Dataset and Hierarchical Tree Framework for Implicit Reasoning [30.54506564763053]
2500のサンプルを持つ大規模長期データセットであるImplexConvを紹介し、それぞれに約100の会話セッションを含む。
また,会話履歴を複数のレベルの要約に構造化する新しい階層木フレームワークであるTaciTreeを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:59:41Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - Enhancing Long-Term Memory using Hierarchical Aggregate Tree for Retrieval Augmented Generation [1.4665304971699265]
HATは子どものノードから情報をカプセル化し、奥行き制御で広い範囲をカバーできる。
実験では、HATはベースラインコンテキストよりもダイアログコヒーレンスと要約品質を改善している。
論文 参考訳(メタデータ) (2024-06-10T09:29:08Z) - Forest R-CNN: Large-Vocabulary Long-Tailed Object Detection and Instance
Segmentation [75.93960390191262]
我々は、オブジェクトカテゴリ間の関係に関する事前知識を利用して、きめ細かいクラスを粗い親クラスにクラスタリングする。
そこで本研究では,NMS再サンプリング法を提案する。
提案手法はフォレストR-CNNと呼ばれ,ほとんどのオブジェクト認識モデルに適用可能なプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2020-08-13T03:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。