論文の概要: Effect of Document Packing on the Latent Multi-Hop Reasoning Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.14427v1
- Date: Tue, 16 Dec 2025 14:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.741862
- Title: Effect of Document Packing on the Latent Multi-Hop Reasoning Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの潜在マルチホップ推論能力に及ぼす文書パッケージングの影響
- Authors: Gabriele Prato, Shagun Sodhani, Alessandro Sordoni, Sarath Chandar,
- Abstract要約: 本研究では,文書パッケージング戦略の違いが,大規模言語モデルの潜在マルチホップ推論能力に与える影響について検討する。
この結果から,パッキングは個々の文書のトレーニングに比べて,より多くの計算処理を犠牲にして,モデル性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 62.81144398338974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard practice for training large language models involves packing multiple documents together to optimize computational efficiency. However, the impact of this process on the models' capabilities remains largely unexplored. To address this gap, we investigate how different document-packing strategies influence the latent multi-hop reasoning abilities of LLMs. Our findings indicate that packing can improve model performance compared to training on individual documents, at the expense of more compute. To further understand the underlying mechanisms, we conduct an ablation study, identifying key factors that explain the advantages of packing. Ultimately, our research deepens the understanding of LLM training dynamics and provides practical insights for optimizing model development.
- Abstract(参考訳): 大規模言語モデルのトレーニングの標準的なプラクティスは、計算効率を最適化するために複数のドキュメントをまとめることである。
しかし、このプロセスがモデルの性能に与える影響は、まだ明らかにされていない。
このギャップに対処するために, 文書パッケージング戦略の違いが, LLMの潜在マルチホップ推論能力に与える影響について検討する。
この結果から,パッキングは個々の文書のトレーニングに比べて,より多くの計算処理を犠牲にして,モデル性能を向上させることが示唆された。
基礎となるメカニズムをさらに理解するため,我々は,パッキングの利点を説明する重要な要因を同定し,アブレーション研究を行う。
究極的には、LLMトレーニングダイナミクスの理解を深め、モデル開発を最適化するための実践的な洞察を提供する。
関連論文リスト
- Mixture of Experts in Large Language Models [3.1494372222592224]
MoEアーキテクチャは、最小の計算オーバーヘッドを維持しながら、モデルパフォーマンスを大幅に向上させる。
本分析では,モデルキャパシティの向上,タスク固有性能の向上,モデルキャパシティの効率向上など,MoEの重要なメリットを明らかにした。
このレビューでは、現在の研究の制限、オープンな課題、将来的な方向性について概説し、MoEアーキテクチャとそのアプリケーションにおける継続的なイノベーションの基礎を提供する。
論文 参考訳(メタデータ) (2025-07-15T10:36:43Z) - Unveiling Effective In-Context Configurations for Image Captioning: An External & Internal Analysis [28.52057785196361]
自然言語処理(NLP)では、インコンテキスト学習(ICL)の有効性を実証する研究が数多く行われている。
LLM(Large Language Models)の成功に触発された研究者らは、ICL機能を備えたLarge Multimodal Models(LMM)を開発した。
本稿では,画像キャプションタスクにおけるマルチモーダル・イン・コンテクスト学習の総合的な外部および内部調査を行う。
論文 参考訳(メタデータ) (2025-07-08T08:07:57Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。
我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文 参考訳(メタデータ) (2024-07-17T11:26:47Z) - Efficient Multi-Model Fusion with Adversarial Complementary Representation Learning [26.393644289860084]
単一モデルシステムは、話者検証(SV)や画像分類といったタスクにおいて、しばしば欠陥に悩まされる。
本稿では、新たに訓練されたモデルが以前取得した知識を回避できる逆相補表現学習(ACoRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T07:47:55Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。