論文の概要: Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models
- arxiv url: http://arxiv.org/abs/2504.08202v1
- Date: Fri, 11 Apr 2025 02:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:18.805235
- Title: Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models
- Title(参考訳): 未知のハーネス:長期言語モデルにおける内在的知識の隠れた影響
- Authors: Yu Fu, Haz Sameen Shahgir, Hui Liu, Xianfeng Tang, Qi He, Yue Dong,
- Abstract要約: 大規模言語モデルの本質的な知識がコンテンツ生成に与える影響について検討する。
本研究では,本モデルが本質的知識を活用できる能力は,文脈的知識を活用できる能力と同時に改善されないことを示す。
我々は,検索能力の両面からモデルを評価する,シンプルで効果的なハイブリッドニードル・イン・ア・ヘイスタック試験を設計する。
- 参考スコア(独自算出の注目度): 17.183896235398553
- License:
- Abstract: Recent advances in long-context models (LCMs), designed to handle extremely long input contexts, primarily focus on utilizing external contextual information, often leaving the influence of large language models' intrinsic knowledge underexplored. In this work, we investigate how this intrinsic knowledge affects content generation and demonstrate that its impact becomes increasingly pronounced as context length extends. Furthermore, we show that the model's ability to utilize intrinsic knowledge, which we call intrinsic retrieval ability, does not improve simultaneously with its ability to leverage contextual knowledge through extrinsic retrieval ability. Moreover, better extrinsic retrieval can interfere with the model's ability to use its own knowledge effectively, limiting its full potential. To bridge this gap, we design a simple yet effective Hybrid Needle-in-a-Haystack test that evaluates models based on their capabilities across both retrieval abilities, rather than solely emphasizing extrinsic retrieval ability. Our experimental results reveal that Qwen-2.5 models significantly outperform Llama-3.1 models, demonstrating superior intrinsic retrieval ability. Moreover, even the more powerful Llama-3.1-70B-Instruct model fails to exhibit better performance under LCM conditions, highlighting the importance of evaluating models from a dual-retrieval perspective.
- Abstract(参考訳): 非常に長い入力コンテキストを扱うために設計されたLong-context Model (LCMs) の最近の進歩は、主に外部の文脈情報を活用することに焦点を当てており、しばしば大きな言語モデルの固有の知識の影響を過小評価している。
本研究では、この本質的な知識がコンテンツ生成にどのように影響するかを考察し、文脈長が長くなるにつれてその影響がますます顕著になることを示す。
さらに,本モデルでは,内在的検索能力と呼ばれる内在的知識を活用する能力は,外在的検索能力を通じてコンテキスト的知識を活用する能力と同時に向上しないことを示す。
さらに、より優れた外在的検索は、モデルが自身の知識を効果的に活用する能力に干渉し、その潜在能力を最大限に抑えることができる。
このギャップを埋めるため、本研究では、外在的検索能力のみを強調するのではなく、両方の検索能力にまたがるモデルに基づいてモデルを評価する、シンプルで効果的なハイブリッドニードル・イン・ア・ヘイスタック試験を設計する。
実験の結果,Qwen-2.5モデルはLlama-3.1モデルよりも優れ,本質的検索能力に優れていた。
さらに、より強力なLlama-3.1-70B-インストラクトモデルでさえ、LCM条件下ではより良い性能を示すことができず、二重検索の観点からモデルを評価することの重要性を強調している。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Augmenting LLMs with Knowledge: A survey on hallucination prevention [0.0]
この調査は言語モデル(LM)の領域を掘り下げ、外部の知識ソースをタップする機能を備えている。
欠落したトークンを予測するという標準的な目的に固執する一方で、これらの拡張LMは多種多様で、おそらくパラメトリックでない外部モジュールを活用する。
論文 参考訳(メタデータ) (2023-09-28T14:09:58Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue [51.513276162736844]
この問題に対する最初のアプローチとして,逐次潜在変数モデルを提案する。
シーケンシャル・ナレッジ・トランスフォーマー (SKT) という名前のモデルは、知識よりも先行と後続の分布を追跡することができる。
論文 参考訳(メタデータ) (2020-02-18T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。